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出版说明 


由香港科技大学社会科学部吴晓刚教授主编的“格致方 
法. 定量研究系列”丛书，精选了世界著名的 SAGE 出版社 
定量社会科学研究丛书中的35种，翻译成中文，集结成八 
册，于2011年出版。这八册书分 别是： 《线性回归分析基 
础》、《高级回归分析》、《广义线性模型》、《纵贯数据分析》、 
《因果关系模型》、《社会科学中的数理基础及应用》、《数据分 
析方法五种》和《列表数据分析》。这套丛书自出版以来，受 
到广大读者特别是年轻一代社会科学工作者的欢迎，他们针 
对丛书的内容和翻译都提出了很多中肯的建议。我们对此 
表示衷心的感谢。 

基于读者的热烈反馈，同时也为了向广大读者提供更多 
的方便和选择，我们将该丛书以单行本的形式再次出版发行。 
在此过程中，主编和译者对已出版的书做了必要的修订和校 
正，还新增加了两个品种。此外，曾东林、许多多、范新光、李 
忠路协助主编参加了校订。今后我们将继续与 SAGE 岀版社 
合作，陆续推出新的品种。我们希望本丛书单行本的岀版能 
为推动国内社会科学定量研究的教学和研究作出一点贡献。 



总序 


往事如烟，光阴如梭.转眼间，出国已然十年有余。 
1996年赴美留学，最初选择的主攻方向是比较历史社会学， 
研究的兴趣是中国的制度变迁问题。以我以前在国内所受 
的学术训练，基本是看不上定量研究的。一方面，我们倾向 
于研究大问题，不喜欢纠缠于细枝末节。国内一位老师的 
话给我的印象很深，大致是说 :如果 你看到一堵墙就要倒 
了，还用得着纠缠于那堵墙的倾斜角度究竟是几度吗？所 
以，很多研究都是大而化之，只要说得通即可。另一方面， 
国内（十年前）的统计教学，总的来说与社会研究中的实际 
问题是相脱节的。结果是，很多原先对定量研究感兴趣的 
学生在学完统计之后，依旧无从下手,逐渐失去了对定量研 
究的兴趣。 

我所就读的美国加州大学洛杉矶分校社会学系，在定量 
研究方面有着系统的博士训练课程。不论研究兴趣是定量 
还是定性的，所有的研究生第一年的头两个学期必须修两门 
中级统计课，最后一个学期的系列课程则是简单介绍线性回 
归以外的其他统计方法，是选修课。希望进一步学习定量研 
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究方法的可以在第二年修读另外一个三学期的系列课程，其 
中头两门课叫“调查数据分析”，第三门叫“研究设计”。除此 
以外，还有如“定类数据分析”、“人口学方法与技术”、“事件 
史分析”、“多层线性模型”等专门课程供学生选修。该学校 
的统计系、心理系、教育系、经济系也有一批蜚声国际的学 
者，提供不同的、更加专业化的课程供学生选修。2001年完 
成博士学业之后，我又受安德鲁 • 梅隆基金会资助，在世界 
定量社会科学研究的重镇密歇根大学从事两年的博士后研 
究，其间旁听谢宇教授为博士生讲授的统计课程，并参与该 
校社会研究院 (Institute for Social Research ) 定量社会研究方 
法项目的一些讨论会，受益良多。 

2003年，我赴港工作，在香港科技大学社会科学部，教授 
研究生的两门核心定量方法课程。香港科技大学社会科学 
部自创建以来，非常重视社会科学研究方法论的训练。我开 
设的第一门课“社会科学里的统计学 ” （Statistics for Social 
Science ) 为所有研究型硕士生和博士生的必修课，而第二门 
课“社会科学中的定量分析”为博士生的必修课（事实上，大 
部分硕士生在修完第一门课后都会继续选修第二门课）。我 
在讲授这两门课的时候，根据社会科学研究生的数理基础比 
较薄弱的特点，尽量避免复杂的数学公式推导，而用具体的 
例子，结合语言和图形，帮助学生理解统计的基本概念和模 
型。课程的重点放在如何应用定量分析模型研究社会实际 
问题上，即社会研究者主要为定量统计方法的“消费者”而非 
“生产者”。作为“消费者”，学完这些课程后，我们一方面能 
够读懂、欣赏和评价别人在同行评议的刊物上发表的定量研 
究的 文章; 另一方面，也能在自己的研究中运用这些成熟的 



方法论技术。 

上述两门课的内容，尽管在线性回归模型的内容上有 
少量重复，但各有侧重。“社会科学里的统计学 ” （Statistics 
for Social Science ) 从介绍最基本的社会研究方法论和统计 
学原理开始，到多元线性回归模型结束，内容涵盖了描述性 
统计的基本方法、统计推论的原理、假设检验、列联表分析、 
方差和协方差分析、简单线性回归模型、多元线性回归模 
型，以及线性回归模型的假设和模型诊断。“社会科学中 
的定量分析”则介绍在经典线性回归模型的假设不成立的 
情况下的一些模型和方法，将重点放在因变量为定类数据 
的分析模型上，包括两分类的 logistic 回归模型、多分类 lo ¬ 
gistic 回归模型、定序 logistic 回归模型、条件 logistic 回归 
模型、多维列联表的对数线性和对数乘积模型、有关删节 
数据的模型、纵贯数据的分析模型，包括追踪研究和事件 
史的分析方法。这些模型在社会科学研究中有着更加广 
泛的应用。 

修读过这些课程的香港科技大学的研究生，一直鼓励和 
支持我将两门课的讲稿结集出版，并帮助我将原来的英文课 
程讲稿译成了中文。但是，由于种种原因，这两本书拖了四 
年多还没有完成。世界著名的出版社 SAGE 的“定量社会科 
学研究”丛书闻名遐迩，每本书都写得通俗易懂。中山大学 
马骏教授向格致出版社何元龙社长推荐了这套书，当格致出 
版社向我提出从这套丛书中精选一批翻译，以獪中文读者 
时，我非常支持这个想法，因为这从某种程度上弥补了我的 
教科书未能出版的遗憾。 

翻译是一件吃力不讨好的事。不但要有对中英文两种 
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语言的精准把握能力，还要有对实质内容有较深的理解能 
力，而这套丛书涵盖的又恰恰是社会科学中技术性非常强 
的内容，只有语言能力是远远不能胜任的。在短短的一年 
时间里，我们组织了来自中国内地及港台地区的二十几位 
研究生参与了这项工程，他们目前大部分是香港科技大学 
的硕士和博士研究生，受过严格的社会科学统计方法的训 
练，也有来自美国等地对定量研究感兴趣的博士研究生。 
他们是： 

香港科技大学社会科学部博士研究生蒋勤、李骏、盛智 
明、叶华、张卓妮、郑冰岛，硕士研究生贺光烨、李兰、林毓玲、 
肖东亮、辛济云、於嘉、余珊珊，应用社会经济研究中心研究 
员李 俊秀; 香港大学教育学院博士研究生洪 岩璧; 北京大学 
社会学系博士研究生李丁、赵 亮员； 中国人民大学人口学系 
讲师巫 锡炜； 中国台湾“中央”研究院社会学所助理研究员林 
宗弘; 南京师范大学心理学系副教授 陈陈; 美国北卡罗来纳 
大学教堂山分校社会学系博士候选人姜 念涛; 美国加州大学 
洛杉矶分校社会学系博士研究生宋曦。 

关于每一位译者的学术背景，书中相关部分都有简单 
的介绍。尽管每本书因本身内容和译者的行文风格有所差 
异，校对也未免挂一漏万，术语的标准译法方面还有很大的 
改进空间，但所有的参与者都做了最大的努力，在繁忙的学 
习和研究之余，在不到一年的时间内，完成了三十五本书、 
超过百万字的翻译任务。李骏、叶华、张卓妮、贺光烨、宋 
曦、於嘉、郑冰岛和林宗弘除了承担自己的翻译任务之外， 
还在初稿校对方面付出了大量的劳动。香港科技大学霍英 
东南沙研究院的工作人员曾东林，协助我通读了全稿，在此 



我也致以诚挚的谢意。有些作者，如香港科技大学黄善国 
教授、美国约翰 • 霍普金斯大学郝令昕教授，也参与了审校 

工作。 

我们希望本丛书的出版，能为建设国内社会科学定量研 
究的扎实学风作出一点贡献。 


吴晓刚 

于香港九龙清水湾 




社会不平等在定性和定量社会研究中一直为古典和现 
代社会理论家所讨论。不平等也许是社会科学的中心话题。 

社会不平等的定量评估是郝令昕和丹尼尔 • Q . 奈曼专 
著的主题。作者特别关注不平等，比如，收入或财富在不同 
社会之间、同一社会的不同群体之间以及时间维度上的比 
较。这一话题根据预设读者只有些许数学和统计学背景的 
原则来展开。 

郝令昕和奈曼介绍了众所周知且使用广泛的洛伦兹曲 
线和不平等的基尼指数，并且系统地提出了更具一般性的不 
平等测量的原理和标准,但他们强调了对整体分布进行比较 
的方法。比如，除了对平均值的关注，作者将不平等研究与 
分位数回归方法联系起来，这一方法描绘出收人等反应变量 
的条件分布，而不仅仅是其中心如何随性别、种族和教育等 
解释变量而 变化。 

社会不平等的定量研究往往建立在复杂社会调查基础 
之上，这类调查中的抽样误差是不可忽略的，而且一般教科 
书中基于独立随机抽样的推断方法并不适用于这类调查。 
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因此，郝令昕和奈曼将他们的讨论与可用软件联系起来，介 
绍了适用于以此类数据对不平等测量进行统计推断的方法。 
他们的讨论同时包括标准的渐进方法和一种基于自举法的 
方法。 

本书广泛的内容和详尽易懂的讨论，将为在这一重要领 
域中从事工作的研究者提供巨大的帮助。 

约翰 • 福克斯 
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本书有两个目标。第一，回顾一系列被广泛使用的概要 
不平等测量和不为大家所熟悉的相对分布方法，介绍每一个 
测量和方法背后的基本原理，并对它们的联系进行讨论 。第 
二，本书介绍了一项技术，以分位数回归来对时间维度上的 
不平等进行基于模型的分解。这一基于模型的方法使我们 
能够对两个时点之间导致不平等变化的两个不同因素进行 
评估。一个是促成因素，它指协变量的构成变化，另一个是 
在给定协变量的情况下，反应变量的条件分布的变化。 

社会不平等是社会科学的核心。社会学长期以来一直 
关注由社会结构所塑造的资源和机会上的个体和群体之间 
的不平等 ( Blau , 1977)，并论述过不平等概要测量的理论和 
方法论意蕴 ( Allison ， 1978)。已有大量经验研究围绕着资源 
和健康上不平等的模式、趋势、原因和后果来展开讨论。有 
大量文献讨论过如何测量不平等。研究者们创建了诸多概 
要不平等测量，并已将它们应用于经验研究中，比如，基尼系 
数、变异系数、方差的对数、泰尔不平等指数、阿特金森指数、 
广义熵等。然而，对这些测量的介绍却并不总是与社会科学 
家们所熟悉的概念相联系。另外，测量之间的关系也未得到 
明确说明。比如，我们可能想知道，为什么基尼系数强调了 



分布的中间部分，应当如何将基尼系数与广义熵进行对比或 
者如何协调多个不平等测量的使用。此外，在趋势研究中， 
人口构成和属性的分布往往同时变化。因此,有必要将构成 
变化和条件分布的变化区分开来。本书试图就这些问题进 
行讨论。 

我们以平等——不存在不平等的方式，来定义不平等。 
平等意味着资源的均匀分布，其中，一个人群中的每个人都 
能获取相同数量（按绝对量计算）或相同份额（按相对量计 
算)的某一资源，比如，收人或财富或诸如健康之类的福利测 
量。平等在真实世界中很少存在。已有的不平等研究试图 
量化不平等的程度。请注意，平等和公平是不同的概念。公 
平关注的是整个社会的福利，认为资源的分配无需平等。如 
果社会中的某些成员变富且没有人变穷，那么，这个社会的 
总福利就被认为更大。在随后的章节中，我们将会再次谈到 
不平等和社会福利之间的区别。 

我们将社会之间、社会群体之间或时期之间的分布差异 
视为不平等。作为一种人口属性的不平等可以用多种方式 
进行测量，包括概要不平等测量。研究者会使用诸如基尼系 
数或泰尔指数等概要测量对两个或多个分布的形状进行比 
较。其他不平等测量将两个或多个分布之间的其他差异加 
以量化，包括中心位置(均值或中位数）、尺度（标准差或四分 
位距)以及形状(偏态或峰态）。比如，在对今天和10年前收 
人分布的比较中，有三种情形可以说明这些分布的属性的改 
变 :第一 ，每一家庭户都获得某一固定额度的增量，从而导致 
一个纯粹正的位置改变和概要不平等测量的减小（比如，更 
小的基尼系数）。第二，每一家庭户都获得某一固定百分比 
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的增量，导致正的位置改变以及尺度增大，而特定的一套概 
要不平等测量却并未发生变化（比如，基尼系数没有变化）。 
第三，处在分布下半部分的家庭户比处在上半部分的家庭户 
经历了一个更小比例的收益（正如美国的收人分布自1973 
年以来所出现的情形），导致正的位置改变、尺度增大、右偏 
态更大以及概要不平等测量的增大（比如，更大的基尼系 
数）。不同概要不平等测量之间的相互关系可以通过将它们 
与位置、尺度和形状改变相联系而变得更加清楚。 

本书的主要目标在于，提供从分布属性的角度来测量不 
平等的基本原理。我们将介绍三套不平等测量：（1)概要测 
量； （2) 基于分位数的 测量； （3) 基于相对分布的测量。由于 
存在大量有关不平等测量的文献，因此，很难决定这些测量 
孰去孰留。本书没有纳人贫困和集中测量或流动指数。我 
们认为，最重要的变量为连续变量，因此，我们只考虑如何基 
于连续变量来测量不平等。考虑到大多数社会科学家都经 
常且习惯于谈论分布属性（比如，均值/中位值、方差、偏态和 
峰态），因此，我们就利用了对这些概念的熟识性„我们会介 
绍所纳人的全部不平等测量的主要性质，并讨论它们的优点 
和不足。同时，我们避免对哪些测量更优这样的问题作出 
判断。 

一些研究者已经介绍过对时期之间不平等来源进行分 
解的方法。使用非基于模型的分解方法已经可以在趋势研 
究中.将条件分布的变化从协变量构成变化中分离出来 
( Cowell , 2000)。一个替代方法是基于回归模型的分解 
(Oaxaca, 1973) 及其对残差所进行的现代处理 (Juhn，Mur¬ 
phy S- Pierce, 1993)。 这一方法受到限制，因为它被局限于 
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条件均值框架。密度分解上的开创性发展将概要不平等测 
量直接与它们所描述的密度函数联系起来 （ Autor，Katz &- 
Kearney , 2005； DiNardo , Forth &- Lemieux , 1996)。 基于 
分位数回归的分解方法 （Machado Mata , 2005) 建立在分 
位数回归分析之上 （Hao Naiman , 2007； Koenker , 2005) , 
它提供了一种更灵活的方法用于基于模型的分解。本书将 
介绍分位数回归如何能被用来区分不平等测量变化趋势中 
的构成成分和条件分布成分。 

通过与连续反应变量 y 的分布相联系的一个量，本书从 
头至尾都在讨论与不平等的测量和分析有关的问题。第2 
章介绍分布之间的位置、尺度和形状改变以及这些改变如何 
将它们在概率密度函数 ( PDF ) 、累积分布函数 ( CDF ) 和分位 
数函数中显示出来。该章也会介绍标准的洛伦兹曲线和广 
义洛伦兹曲线以及分位数函数与洛伦兹曲线之间的关系。 
第3章对一套使用广泛的概要不平等测量进行回顾。第4 
章讨论如何基于五项原则在诸多概要不平等测量之间进行 
选择，以及洛伦兹占优如何可被用来指导选取最少量的一套 
不平等测量，对不同人口进行比较。第5章讨论作为测量和 
分析不平等的灵活工具的相对分布方法。在第6章中，我们 
讨论了应在怎样的条件下使用渐近推断方法或自举推断方 
法以及如何基于调查数据得到不平等测量的标准误和置信 
区间。第7章介绍不平等趋势中非基于模型和基于分位数 
回归模型的分解。应用本书所介绍的大部分技术，最后一章 
将给岀一个真实世界的研究范例，对1991年和2001年家庭 
户收人和财富不平等进行考察。 

适合于不平等研究的结果变量的例子岀现在若干领域 
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中。人们可能对以下内容感兴 趣:经 济福利——这会引发对 
收人或财富进行 考察; 学业成绩一这可由标准化测试分数 
加以 测量； 以诸如体重指数这样的量来描述健康。在本书 
中，我们将家庭户收入作为一些包含正数取值变量的例子， 
用家庭户财富作为一些包含正数、0和负数取值变量的例子。 
尽管分析单位可以是个体、家庭或家庭户，但我们选择家庭 
户作为分析单位，因为这些资源由家庭户成员共同分享，并 
且我们对作为整体的家庭户福利水平感兴趣。家庭户特征 
以户主的种族、教育和年龄以及家庭户类型和居住地进行测 
量。收人或财富的比较基于不同社会群体或两个时点之间的 
美国人口来进行。处于不平等不断增加时期的美国1991年 
和2001年“收人与项目参与调查” ( SIPP ) 提供了用于举例说明 
的经验数据。数据、 Stata 程序和各章的证明附录都可在本书 
作者的网站上找到： www . ams . jhu . edu / 〜 hao / INEQ _ Book 。 
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第2章的目的是在宽泛意义上为某一人口特征的分布 
属性(诸如集中趋势、离散度、偏态和峰态）和不平等测量之 
间的联系奠定基础。我们用一个假设数据来说明位置改变、 
尺度改变或形状改变等分布上的变动如何反映在均值、方 
差、偏态和峰态的变化上。然后，我们简要回顾概率密度函 
数和累积分布函数，介绍分位数函数，最后基于分位数函数 
来介绍洛伦兹曲线。洛伦兹曲线提供了可将诸多概要不平 
等测量统一起来的共同基础。 
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第1节 I 秩、概率密度函数、 
累积分布函数和矩 


我们以收人为例作为感兴趣的特征变量。将对个体 f 观 
测到的收人数据记为^，那么，全部的观测收人数据(未排序 
的情况下)可记为^，…，火。当个体的收人被从低到高加 
以排序时，就得到了有序值 ^ m ， …， y “)。 个体收人的“秩” 
指的是个体收人在有序值之间所处的位置。秩对分析和研 
究分布属性很有用。彭 （ Pen ) 在其1973年提出“高矮排队 
法”的文章中，提出将收人想象成身高和从矮到高列队的个 
体。该列队呈现为一条非降的曲线。在“高矮排队法”中，侏 
儒(极低收人的个体）和巨人（极高收人的个体）引人注目。 
我们使用的所有基本工具，包括概率密度函数、累积分布函 
数、分位数函数和洛伦兹曲线，都可建立在排序数据的基 
础上。 

个体收人 y 的概率密度函 数 / y 曲线下方的面积反映出 
各收人取值区间的相对频数，从而完整地描述收人的概率分 
布。累积分布函数 F y 描述累积概率，即对于任一给定的收 
人 y ， F y O 0 会给岀收人小于^的概率。岀于纯粹举例说明 
的目的，我们生成了一个假设具有对称分布的收人变量 
(把它称为“原始”数据），图 2. 1呈现了它的概率密度函数和 
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累积分布函数。累积分布函数上与图 2. 1(b) 中的某个 >>相 
对应的^表达了图 2. 1(a) 中概率密度函数下直到^点处的 
面积。直观地来看，我们可以看到中心位置位于何处、分布 
有多离散(尺度）以及分布的形状是对称的还是偏态的。对 
于如图 2. 1所示的正态分布而言，概率密度函数的形状呈轴 
对称，而累积分布函数的形状则呈中心对称。 



图 2.1 收入的假设正态分布的概率密度函数和累积分布函数 


为了更好地理解分布的特征，我们来考虑如何以概率密 
度函数和累积分布函数来刻画位置、尺度和形状改变。首 
先，位置改变源于对人口的每一个成员增加或减少某一固定 
额度的资源。当对增加某一常数 a 得到了 Y n> 时， Y (1) = 
a+Y <0) ，我们将 Y u ) 定义成的位置改变。比如，当每个人 
都得到相同额度的额外收人时.结果就是出现一个正的位置 
改变。但是，对每个人征取相同额度的税则会导致一个负的 
位置改变。其次，尺度改变源于以某一固定比例增加或减少 
每个人的资源。如果 y <2) 是将乘以某个正的常数 r 而得 
到的，那么= ，我们将 y (2) 定义成的尺度改变。 
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比如，每个人可能都从其雇主处得到某个固定比例的工资上 
涨。再次，形状改变源于以不同的量增加或减少某个总体中 
成员的资源。尽管起初是个对称分布，但如果位于此分布上 
半部分的个体比那些位于下半部分的个体得到了更高比例 
的增量，那么该分布将向右偏。反之，如果具有更高收人的 
个体要缴纳更高的税，那么，该分布将向左偏。因此,根据个 
体收人的不同来将其收人乘以不同的系数能够导致反称性 
改变。 

图 2. 2将四种改变（位置、尺度、右偏态和左偏态）的概 
率密度函数和累积分布函数与收人的原始正态分布的概率 
密度函数和累积分布函数进行了比较。为了便于比较，我们 
用共同的: r 和 j 取值范围画出这些函数。图 2.2( a ) 中的子 
图显示：（1)正的位置改变使概率密度函数向右 移动； （2) 尺 
度改变使概率密度函数向右移动并使其变得 更宽； （3) 右偏 
改变使概率密度函数向右移动，并使其上半部分比下半部分 
宽 更多； （4) 左偏改变使概率密度函数向左移动，并使其下半 
部分比上半部分宽更多。位置改变和尺度改变之后，概率密 
度函数仍是对称的，但右偏态和左偏态改变之后，它就变成 
非对称的了。 

图 2. 2( b ) 将五个累积分布函数呈现在一幅图中。实线 
描绘了收入的原始正态分布。虚线为位置改变，与实线平行 
且位于其右边。点线描绘了尺度变化，它不再与实线平行， 
且上半部分比下半部分向右移得更远。右偏改变曲线(长划 
线）的上半部分向右移得更远，而其底端仍然靠近原始曲线。 
左偏改变曲线(短划线）向左移动，其上半部分移动得更远而 
其下半部分仍然靠近原始曲线。尽管位置和尺度改变后的 
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图 2. 2收入的假设正态分布及其 
四种改变的分 布:概 率密度函数和累积分布函数 


累积分布函数仍保持对称性，但右偏和左偏改变后的累积分 
布函数则不再保持对称性。与概率密度函数的模式相比，累 
积分布函数的模式具有不同的外观。了解累积分布函数模 
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式有助于我们将已经熟悉的概率密度函数与不熟悉的分位 
数函数联系起来。 

概率密度函数的属性可以用“矩”从数值上加以描述。 
每一个矩就是 Y 的某次幂的期望值 ，即々 阶矩，被定义为 
E [ Y *] 0 一阶矩就是均值(或期望值） A <== f ：[ Y ]， 它被用来描 
述一个分布的集中趋势。更高阶矩 （ & = 2, 3, …） 描述了分 
布更复杂的属性，且在以均值进行对中的情况下通常更易于 
理解和解释，即考虑中心矩便于我们理解分布。々阶中心矩 
E [( Y -^)*] 被定义成 Y 和"之间差值的々次幂的期望值。 
二阶中心矩(方差） < t 2 = £[(Y — ") 2 ]， Y 和"之间差值平方 
的均值测量了离散度（尺度）。方差的平方根 a 被定义成分 
布的标准差。 

对具有不同尺度的分布的更高阶中心矩进行比较可能 
较为困难，因此，我们通常将分布加以标准化，使其方差等于 
1，然后计算重新尺度化的分布的更高阶中心矩。因此4阶 
标准化中心矩便可通 过将々 阶中心矩除以 V 得到，故它具有 
E[(y — 〆 ]/</的形式。三阶标准化中心矩具有 E[(Y — 
/，) 3 ]/ a 3 的形式，这个量被定义为“偏态”。当分布围绕着均值 
对称时，偏态取0值。负值意味着左偏态，而正值则意味着 
右偏态。 

同样，四阶中心矩得到量，被称为分布 
的“峰态”。对于高斯（正态）分布而言，其峰态系数是3。如 
果峰态系数大于3,那么，这个具有比高斯分布更高峰点的分 
布被界定为“尖峰” D : ; 当峰态系数小于3时，则为“扁平峰”。 
更高阶矩在描述分布属性中不常被使用。 

变量的线性转换能够引起一阶和二阶矩(均值和方差)上 
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的变化。 [2] 如果 F 具有均值 y 和方差，那么 ， F = a + l 的 
均值和方差分别为 a + p 和 c ^ 2 。 但是.由于对中和标准化， 
标准化的中心矩（比如，偏态和峰态)并不受线性转换的影响。 

表 2.1 的第一行列出了所生成收人数据 ( Y ) 的四种矩。 
均值为49051美元，标准差为10156美元，偏态为0,峰态为 
3。第二行到第五行显示了四种改变——位置、尺度、右偏和 
左偏——的每一转变之后所得概率分布的矩。每个人的收 
人增加10000美元所引起的位置改变将使均值上升10000美 
元，但并未改变原始分布的标准差、偏态和峰态。由每个人 
的收人增加50%所引起的尺度改变同时使均值和标准差上 
升，但是，它既不改变偏态也不改变峰态。位置改变和尺度 
改变都属于原始变量的线性转换，因此并不影响偏态和峰 
态。由增加某一百分比所导致的右偏改变会导致原始分布 
的四个矩都发生变化——更大的均值、标准差、偏态和更小 
的峰态，左偏改变则恰好相反。 

表 2. 1的最后一列对基尼系数加以比较，基尼系数的值 
越大表明越不平等。尽管基尼系数将在下一章加以介绍，但 
这里对它们进行比较的目的在于表明，位置改变和偏度改变 
会在基尼系数的变化中反映出来.而尺度改变并不如此。因 
此，基尼是“尺度无关的”。 

表 2.1 收入的假设正态分布的矩和基尼系数及其四种改变的分布 


分布 均值 标准差 偏态 峰态 基尼系数 


原始分布 

49051 

10156 

位置改变 

59051 

10156 

尺度改变 

73576 

15233 

右偏改变 

76441 

29399 

左偏改变 

43573 

6431 


0. 00 3.00 0.1167 

0. 00 3. 00 0. 0969 

0.00 3.00 0.1167 

0. 36 2.40 0.2193 

4. 30 0. 0807 


— 0 . 45 





第 2 章概率密度函数、累积分布函数、分位数函數和洛伦兹曲线 


第2节 I 分位数函数 


分位数函数是用来测量不平等的另一个工具，正如本章 
开始所提及彭的“高矮排序法”一文中所看到的那样。收人 
累积分布函数 F y 的逆函数 （inverse function ) Fy ! 就是分位 

数函数 Qy ， 且 Qf 表明了 y 的取值，因此，对于取值为 0 到 1 
之间的每一个可能的比例/>，有 F y ( y ) = /»。 

= F ； l ( p ) [2.1] 

因此，取值位于 Qf 之下的人口所占比例为 P (对于更详细 
的定义，见《分位数回归模型 》， Hao Naiman , 2007)。 

对于假设的服从正态分布的收人数据，根据分位数 
函数得到的中心位置、尺度和形状可见于图 2. 3( a )。 分位数 
函数的: r 轴和^轴将累积分布函数的相应数轴互换了位置。 
因此，不再要求给出某个特定 y 值处的累积概率;>，我们问的 
是某一特定/>处的 J 值是多少。我们感兴趣的累积概率值 
包 括：/ >50( 中位数），淖5、妁0、/»75(四分位数）， p 20、 />40、 
邱0、焯 0( 五分位数）以及 fl ， …， / >99( 百分位数）。重新关 
注与给定累积概率相对应的分位数，有助于在模型的不平等 
分析中将收人当做因变量。正态分布的分位数函数的对称 
性与其累积分布的中心对称性很相似，即位于分位数函数下 
半部分的斜率，精确地映射出位于上半部分的那些斜率。正 
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态分布会呈现一条与图 2. 3中一样的对称曲线。 

基于分位数的测量提供了测量中心位置、尺度和形状以 
描述分布属性的其他方式。众所周知的基于分位数的测量 
包括反映中心位置的中位数（扣 0) 和反映尺度或离散度的 
p 25 和卢5之间的四分互差。这可以灵活地扩展到不同的 
极差，比如，^10和 p 90 之间或 fl 和/>99之间的极差。户50 
到 P 90 的极差与 f 10到/>50的极差之比反映偏态。由于使 
用均值和方差来刻画一个既非正态亦非对称分布的集中趋 
势和离散度是有问题的，所以，基于分位数的测量提供了一 
种比使用矩要丰富得多的方法来描述分布属性(请参见《分 
位数回归模型》中更详细的讨论 ， Hao Naiman ， 2007)。基 
于分位数的不平等测量可被广泛应用。用中位数而非均值 
来描述收人分布的集中趋势是一种常见的做法。研究收入 
不平等的研究者们长期以来一直意识到，使用标准差来刻画 
偏态的收人分布的尺度的特征并不恰当。相反，收人的自然 
对数却经常被用来将偏态分布变成对数正态分布 （ Buchin - 
sky , 1994； Juhn et al . , 1993)。 

分位数函数能够清晰地刻画收人原始正态分布的四种 
改变的特征。在图 2. 3( b ) 中，实线描绘了原始分布。将每个 
人的收人增加10000美元所引起的位置变化使得曲线向上 
移动(虚线），并保持对称性。给予每一个个体相同百分比的 
提高所取得的尺度改变使曲线发生倾斜(点线），不过仍保持 
对称性。右偏改变后，曲线丧失了对称性(长划线），其中上 
端尾部的斜率比下端尾部的斜率 更陡; 左偏改变后，曲线也 
丧失了对称性(短划线），其中上端尾部的斜率比下端尾部的 
斜率更缓。 



第 2 章概率$度圣数、累 积分布 S 数、分位数3数和洛伦兹曲线 




- 原始分布•- 

•…位置改变一一尺度改变 

一•-右偏改变 - 

•……左偏改变 


(a) (b) 


图 2.3 收入的假设正态分布的分位数函数及其四种改变的 分布: 
正态分布和四种改变 
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第 3 节 I 洛伦兹曲线 


洛伦兹所介绍的洛伦兹曲线为基尼系数和其他尺度无 
关的常量不平等测量提供了一个共同基础。它能表明，对于 
取值为0到1之间的每一个可能比例户，那些收入不超过该 
夕分 位数的个体总收入的比例。比如，对于/> = 0. 25,我们 
将所有位于/>25或以下的收入取值加总，同时表达其占总收 
人的比例。 

最直接的洛伦兹曲线的计算可以用一个包含《个收人 
值％，…，％的样本来展示，首先将它们排序成 
700,然后 得到： 


L { s / n ) 


= Lip ) = 



(s = 0, 1, 2, •••, n -, p = s / n ) 


[ 2 . 2 ] 


因此，比如 ，一 个样本包含了 100名个体，并且他们的收 
人都被从小到大地进行排序，然后我们将 L (0. 25) 定义成最 
低25名个体的总收人除以全部个体的总收人。洛伦兹曲 
线被限定在 0 G = 0时)到 l(s = n 时)之间。所生成的收人 
数据 (/) 的洛伦兹曲线如图 2. 4( a ) 所示。： C 轴表明总人数 
的累积比例 d 轴则表明由对应的总人数累积比例所占的总 



第 2 牽槪率密度函数、累积分布函数、分位数函数和洛伦兹曲线 


收人的累积比例。对角的直线被称为“平等线”，表明每个人 
都拥有完全相同的收入份额情况下将会得到的结果。对平 
等的任何偏离都会导致洛伦兹曲线位于平等线下方。洛伦 
兹曲线对平等线的偏离越大，表明不平等程度越严重。 




-原始分布 

•……位置改变 

---- 尺度改变 

-一右偏改变 

左偏改变 



(b) 


图 2. 4收入的假设正态分布的分位数函数 
及四种改变分布的洛伦兹 曲线: 正态分布和四种改变 
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洛伦兹曲线与分位数联系紧密，且可以使用分位数函数 
进行表述。对于一个收人分布具有以/表示的概率密度函 
数的人口，我们会以各分位数的一个函数来表达洛伦兹 
曲线： 

[ Qiq)dq fQ<p) 

Lip ) = - = — yf ( y)dy [2. 3] 

Q ( q)dq " J 尸。 

j q=Q 

根据图形，方程 2. 3 可被理解成，图 2. 4 U ) 中；> 对应着 
的洛伦兹曲线 L (/») 上的收人份额就是图 2. 3( a ) 中分位数函 
数曲线下方直至 f 值处的面积,因为它被该分位数函数下的 
总面积标准化了，也就是平均值。正如图 2. 4( a ) 中洛伦兹曲 
线所显示的，约40%的总收人为该人口下半部分所占有。如 
果以整个分位数函数下方的面积进行标准化，累积比例 0. 4 
就等于该分位数下方直至/ > = 0.5 处的面积。 

我们现在来考虑位置改变、尺度改变和形状改变对洛伦 
兹曲线的影响。对于一个幅度为 aU >0) 的正的位置改变， 
新的洛伦兹曲线不同于原始的 那条： 


L * ( s / n ) 






这一新的洛伦兹曲线位于旧的那条上方，即 { s / n ) > 
L ( s / n ), 即使一些收人并不相同。直觉上讲，正的位置改变 
使分子增加得比分母更多，因此使得洛伦兹曲线向上 移动; 
而负的位置改变则使分子减少得比分母更多，因此使得洛伦 
兹曲线向下移动。附录中给出了这一事实的缜密讨论。因 
此，将每一个个体的收入增加一个相同的正数 a 具有降低不 



第 2 章概車密度函数、累积分布函数、分位数函数和洛伦兹曲线 


平等的效应。极端地来说，随着《趋于无穷，洛伦兹曲线会 
接近于平等线。图 2. 4( b ) 中，正的位置改变使得原初洛伦兹 
曲线(实线)略微向上移动，更加接近平等线(虚线）。 

对于一个幅度为 Kc >0) 的尺度改变，我 们有： 

L' (s/n) = ^ - = t； 1 ：' = L(s/n) 

[2.5] 

因为以均值进行了标准化，故洛伦兹曲线并不会随着尺 
度改变而变化(第4章中所讨论的尺度无关原则）。图 2. 4( b ) 
显示，原始的洛伦兹曲线和尺度改变的洛伦兹曲线完全相 
同。相比而言，正如前一节所显示的，尺度改变可在概率密 
度函数、累积分布函数、矩和分位数函数中被察觉。 

洛伦兹曲线反映了形状改变。图 2. 4( b ) 中，右偏改变 
(富者越富)将洛伦兹曲线向下移至长划线处，更加远离平等 
线。左偏改变(富人被征收比穷人更多的税）将洛伦兹曲线 
向上移至短划线处，更加接近平等线。 

广义洛伦兹曲线被发展出来以反映尺度改变 （ Shor - 
rocks , 1980)。现在，令: c 轴表示累积份额与平均收人的积。 
使用假设数据，我们在图 2. 5中展示了原始正态分布的广义 
洛伦兹曲线及其通过将每个人的收人增加50%所导致的尺 
度变化所对应的广义洛伦兹曲线。原始分布的平均收入为 
49051美元，而其尺度改变的分布的平均收人为73576美元。 
这两个分布的常规洛伦兹曲线完全相同，但正的尺度改变对 
应的广义洛伦兹曲线位于原始分布对应的广义洛伦兹曲线 
的上方。而且，图 2. 5中的两条广义洛伦兹曲线表明，尺度 
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r ^~ 原始分布 ——尺度改变1 

图 2. 5收入的假设正态分布的分位数函数及其尺度改变的广义洛伦兹曲线 


改变的人口比原初的人口更 富裕。 



<旧 «§1 K%*®〆 ^^^ 1 " 5 丑 〆 荽 * 睬 



第 2 章槪率密度函数、累积分布函数、分位数函数和洛伦兹曲线 


第4节 | 小结 


本章扼要地介绍了测量和分析不平等的四类基本工具。 
从适用于所研究属性的最为基础的概率密度函数工具开始 
讲起。许多研究者以查看属性的概率分布的形状作为其经 
验研究工作的第一步。概率分布的中心矩——均值、方差、 
偏态和峰态——刻画了该分布的中心位置、尺度和形状的特 
征，这些也为研究者广泛使用。累积分布函数是第二类工 
具，表示概率密度函数下方的面积。累积分布函数的逆函数 
是分位数函数，这是我们的第三类工具。最后，第四类工 
具——洛伦兹曲线一被作为分位数函数的一个自然扩展 
而加以介绍，因为洛伦兹曲线表示分位数函数下方标准化的 
面积。广义洛伦兹曲线用于应对常规洛伦兹曲线的尺度无 
关性。 

适用于不平等研究的四类基本工具的核心要素是位置、 
尺度和形状改变，我们借助这些要素建立此处所讨论的四类 
基本工具之间的相互关系。此种相互关系有助于我们将下 
一 章要介绍的各种概要不平等测量联系起来并进行比较。 



第 3 章 

概要不平等测量 
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本章将介绍一套适用于资源或福利的连续、非负测量的 
概要不平等测量，它们来自大量的不平等文献，特别是考维 
尔的著作 ( Cowell ， 2000)。我们选取变异系数、基尼系数和 
泰尔指数等被广泛使用的测量以及基于分位数的测量、阿特 
金森族指数、广义熵指数族等不常被使用的测量。我们使用 
第2章中的假设例子来对每一个测量加以说明，从而以位 
置、尺度和形状改变的方式来阐明一个不平等测量变化的分 
析性特征。然后，我们使用取自“收人和项目参与调查”的 
1991年和2001年的数据，展示了真实世界中的不平等随时 
间变动而具有组合解释。我们用 Stata 中的软件包 
“ inequaU ”® 来得到各种概要不平等测量 (Van Kerm , 2001)。 


①注意，数字 7 前面是字母 “al ”。 ——译者注 



第 3 章概要不平等_最 
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第1节 I 概要不平等瀾量 


我们考虑选取的测量是因为它们在经验工作中常被使 
用，或是因为它们具有特定的优势。我们通过将概要不平等 
测量与隐含着的概率分布及其分位数函数、洛伦兹曲线、社 
会福利函数和信息理论联系起来而加以介绍。 

将不平等测量与概率分布联系起来 

最简单的不平等测量可以直接根据已排序的个体收人 
而得到。收人的范围可被表达成最小收人到最大收人的距 
离，即极 差尺： 

R = — : y ™ [3.1] 

如果我们知道整个人口的收入，极差就会有效地描述 
分布的完整范围。表 3. 1的第一行给出了收人的假设对称 
分布及其四种改变分布的极差。原始分布的极差为86000 
美元，纯粹的位置改变并未改变原始 极差。 如表 3. 1所示， 
尺度改变和右偏改变都扩大了此范围，而左偏改变则缩小 
了此范围。使用取自 SIPP 的真实数据，表 3. 2的第一行表 
明，1991年的收人极差为467000美元，2001年扩大到 
728000美元，这反映了美国收入分布的尺度和形状变化。 
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左偏改变 

oc 


0. 148 

0.026 

0. 026 

0. 728 

1. 208 

0. 1566 

()• 238 

()• 081 

0. 006 

()• 012 

0. 026 

0. 011 

0. 012 

0. 013 

0. 011 

右偏改变 

LT . 

卜 

O'* 

0. 385 

0. 178 

卜 

o 

0. 464 

1. 7 S 1 

2 

0. 315 

0. 2 J 9 

0. 038 

0. 077 

X 

LTi 

o 

0.075 

0. 080 

0. 094 

0. 074 

尺度改变 

00 

CSJ 

CM 

LO 

0. 207 

0. 049 

0. 049 

0. 662 

1. 343 

0. 142 

0. 258 

0. 117 

0.011 

0.023 

0. 048 

0. 022 

0. 023 

0. 025 

0. 021 

位置移动 

00 

o 

(M 

C^- 

O 

0. ⑽ 

0. 082 

0. 720 

<N 

0. .152 

0. 248 

0. 097 

0.007 

0. 015 

0. 032 

0. 015 

0. 016 

0. 016 

0. 015 

原始分布 

to 

00 

o 

0. 207 

0. 049 

0. 049 

0. 662 

1. 343 

rr- 

O 

0. 258 

0. 117 

0.011 

0.023 

0. 048 

0. 022 

0. 023 

0. 025 

0. 021 

不平等测 M 

勻概率分布相联系 

1趴极差 ）（1000 美元） 

2 # (标准差 ）（1000 美元） 

3 r (变异系数） 

4 认方差 对数） 

5 V ) (对数的方盖） 

基于分位数函数和洛伦兹曲线 

6 p^/pbOi 分位数比） 

7户95//>50(分位数比） 

8底部1/5的份额 

9顶部1/5的份额 

10 (;( 基尼系数） 

根据社会福利函数推导 
n am (阿 特金森指数， £ 二 1/2) 

12 A (阿特金森指数，£= 1) 

13 A 2 (阿特金森指数， e = 2) 

根据信息理论得到 

H T (泰尔指数 )(_ 芯（广义熵0= 1) 

15 G £：。 （广义熵 0 = 0) 

16 (广义熵 <9=— 1) 

17 f ; E 2 ( 广义嫡 2) 


_展撖降片运枏尔^势 S 刼喽 ^ w - e * 
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表 3. 2 家庭户收入的不平等测 H : SIPP (1991 年和 



不平等测量 

1991 

恥01 


与概率分布相联系 



1 

R (极差 ）（1000 美元） 

467 

728 

2 

vV (标准差 ）（1000 美元） 

35.8 

45.3 

3 

r (变异系数） 

0.738 

0.900 

4 

w (对数方差） 

0. 790 

0. 969 

5 

对数的方差） 

0.707 

0. 846 


基于分位数函数和洛伦兹曲线 



6 

/)5//>50(分位数比） 

0. 194 

0. 190 

7 

/>95//>50(分位数比） 

2.866 

3. 232 

8 

底部1/5的份额 

0. 048 

0. 043 

9 

顶部1/5的份额 

0.430 

0. 466 

10 

G (基尼系数） 

0. 385 

0. 424 


根据社会福利函数推导 



11 

A 1 / 2 (阿特金森指数， 1/2) 

0. 123 

0. 149 

12 

九 （阿特金森指数， e = 1) 

0.251 

0. 294 

13 

A 2 (阿特金森指数 ， e = 2) 

0. 734 

0. 875 


根据信息理论得到 



14 

T (泰尔指数) GE ! (广义熵0= 1) 

0. 244 

0. 310 

15 

6£。(广义熵0 = 0) 

0.288 

0. 349 

16 

GEh (广义熵0=—1) 

1.378 

3.512 

17 

G £ 2 ( 广义熵 0=2) 

0. 272 

0. 405 


资料 来源: SIPP 。 


但是，极差对人口中每个人应答上的不完整信息非常敏 
感，它可能会受到少数极值的极大影响。不过，保密性原因 
使得顶部编码收人成为一种常见的做法，这实际上会掩盖收 
人的极差。一个更普及的离散度测量是分布的二阶中心矩， 
即方差 V : 


V = 士$ -3'- 


[3.2] 
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如果每个人都得到一个固定百分比的增量，那么收入的 
方差将会增大。比如，每个人收入固定增加50%将导致方差 
增加 1. 50 2 = 2. 25倍，尽管收入分布的形状仍保持不变。 
表 3. 1的第二行显示，尺度改变 1. 5情况下的标准差（方差 
的平方根)为原始分布标准差的 1. 5倍。右偏改变使标准差 
增大近三倍，而左偏改变则使标准差减小约40%。表 3. 2的 
第二行表明，收人的标准差从1991年的 3. 58万美元增大到 
2001年的 4. 53万美元。 

如果想在不受收人数量影响的情况下对收人分布进行 
比较，我们可以将标准差(方差的平方根)除以均值得到变异 
系数 c : 


[3.3] 
y 

此测量对收入上一个固定的百分比变化不敏感，即被称 
做“尺度无关性”属性。 [5] 表 3. 1的第三行显示，原始分布和 
尺度改变分布的 c 仍为0.207。不过，它在经过纯粹正的位 
置改变 (0. 172) 和左偏改变 (0. 148) 之后减小了，在经过右偏 
改变之后反而增大了（0.385)。因此，变异系数描述了位置 
和偏态改变而非尺度改变。在表 3. 2的第三行中，1991年到 
2001年从 0. 738增大到 0. 900表明美国收入分布的中心位 
置以及右偏态上的增大。 

除了方差之外，我们也可以用对数方差来测量不 平等： 

丄 2 ( lc « (岑 ）） =丄士 （ log ),— log 》) 2 
n rrr ' 、 y I ’ n ^ 


[3.4] 
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由于对数据进行了对数转换，此测量对于减少严重右偏 
态分布可能很有用。术语“方差”有误导性，因为在方程 3. 4 
中，离差平方的平均值并不是关于对数转换数据的均值 
的，而是关于均值的对数 log ( y 的。这一测量仍然具 
有尺度无关的性质。每个人收人上50%的增量并不会影响 
到量1。 

由于上面提到的原因，统计上更为自然的是定义对数的 
方差 A ，也就是说，我们计算对数转换数据的方差。 [6] 这一测 
量具有与对数方差相类似的形式，除了它以几何均值 y 代 
替算术均值之外： 

( log (y )) = 士容 ( lo g 乂 — 10 &)) 2 

[3.5] 

尺度无关性质也可以直接看到。如果我们以代替 
3>*，那么 log(oO = log ( c ) + log ( x ) * 同时， log ( c ： y ) = log ( c ) 
+ log (: y ) ，因此， 

士容 （ log(c;y;)-log(oO) 

= 士容 (log(c)+log(_y ; ) — log(c) — log (: y)) 

因此，我们可以消去 logCc ) 项，又得到了原初的 a 。 所以，对 
全部人口的收人增加一个固定百分比并不会影响对数的方 
差的值。 d 和％ 两者都是尺度无关的，它们之间的恰当选择 
取决于函数转换(这里为对数）在特定研究中是否重要。不 
过，由于上面提到的原因，我们偏好 M 。 

收入对称分布及其四种改变分布的对数方差 u 如表 3. 1 
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第四行所示。对称收入的 u 为0.049,尺度改变后该值并未 
被改变。正的位置改变实际上会提高均值以下收人的比值 
乂/夕而降低均值以上收人的该比值，因此^值下降为 0. 032。 
左偏改变也会以类似但更强烈的方式改变比值 yi/y ， V 降低 
到0.026。相反，右偏改变以相反方向改变比值 m/A D 升高 
到0.178。随着因位置和形状都改变而导致对数方差从 
0.790 上升到 0. 969( 见表 3. 2第四行），美国家庭户收人变得 
更加不平等。 

表 3. 1和表 3. 2第五行显示，尽管对数的方差 a 与对数 
方差 f 大体相似，但 w 往往略大于 A ，分布越是右偏或左偏， 
差异就越大。 

基于分位数函数和洛伦兹曲线的不平等测量 

收人分布的分位数经常被用于收人不平等的官方统计 
和经济学分析。比如，收人分布底部1/5和顶部1/5之间的 
比较会呈现出不均匀的收人分布。非中心分位数与中位数 
的分位数比的变化，经常被用来显示收人分布或财富分布形 
状的变化趋势。 

底部敏感的分位数比值为/ >5/ p 50, 而顶部敏感的分位 
数比为 灿5//>50。 表 3. 1 第六行和第七行表明，分位数比在 
尺度改变后仍未发生变化，但对位置改变、右偏改变和左偏 
改变敏感。比如，随着 妁/的0 上升而/ >95/如0 下降,正的位 
置改变会减少不平等。表 3. 2 第六行和第七行显示， 妁/户50 
之比在1991年 （0. 194) 和2001年 （0. 190) 之间其实并无改 
变，而 p 95//>50 大幅度地从 2. 866上升到 3. 232。这些结果 



第 3 章概要不平等澜量 


33 


意味着，美国收人分布出现了下端停滞和上端扩大的现象。 

基于分位数的不平等测量更为灵活。研究者可以根据 
关注的主题来决定哪些分位数更有意义。比如，如果想通过 
对中产阶级的关注来了解收入分配的时间趋势，那么，我们 
可以选择/>25和^75。另一个例子是教育成就趋势，教育专 
家经常根据标准化测验分数来界定成就的类别。根据2001 
年的“全国教育发展评估 ” （National Assessment of Educa ¬ 
tional Progress ) ，八年级学生科学测验分数的初级成就水平 
是143分，为全国科学测验分数分布的第39个分位数 
(邱9)。熟练水平 （170 分)和高级水平 （208 分)分别为测验 
分数分布的第69个分位数和第97个分位数。使用不同时 
间点上这些特意选取的分位数而不是任意的分位数，为我们 
提供了监测成就变化趋势的一种合理方法。同时，这一灵活 
性也意味着，我们并没有一个基于分位数的唯一测量。 

有关收人不平等的官方统计会用到收人“份额”的概念。 
比如，美国普查局报告说，2007年工资收入最高的的人 
拥有总收人的23%，达到了自1913年以来最高的不平等水 
平。收入份额就是处在收入的某一特定分位数区间的个体 
或家庭户的总收人所占的比例。比如，我们也许 会问: “收人 
最高的10%的总人数所占的比例是多少?” 

对于洛伦兹曲线， 


r / ,、 2 

L(s/«) = - 


这就是最低收人的$名个体的收人所占比例。因此 ，点户 （户 
= s / n ) 处的洛伦兹曲线直接给出了底部 100 p % 的个体或家 
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庭户所拥有的收入份额，记为 L ( P )。 洛伦兹曲线也可以更 
间接地用于达到某一底部份额的情况。注意，具有最高收人 
的 s 名个体的收入所占的比例可 写为： 

S " n — n~s n-s 

y(i) — 2—i ,=i y to 2-^ I= i y — ] 2-^ ，- =i *^c ^ 

S n _ ▽ n _ n 

Zj ， - 1^(0 Zj 

即 1— L (( w — s )/ n ) = 1 — l(i —( i / n )) o 因此，一般而言，最 

高 100P% 的个体或家庭户所拥有的份额由1 — 1 X 1 — >) 
给出。 

要想得到中间份额，即收人位于两个分位数之间的个 
体——如100九％和100^%的个体——的总收人所占的比 
例，我们就取上限份额和下限份额之间的差值 L (九） 一 L ( 九）。 

表 3. 1第八行和第九行给出了五个分布的底部和顶部 
1/5的份额。考察底部1/5的收人份额实际多大程度上小于 
顶部1/5的收人份额，为我们提供了一种感知不平等程度的 
直觉方法。1991年到2001年的10年期间，底部五分位数的 
收入份额停滞在 0. 048到 0. 043之间，而顶部1/5的收人份 
额则从 0. 43增加到了 0. 47( 见表 3. 2第八行和第九行)。洛 
伦兹曲线可被用来查看各种分位数(不只是五分位数），以测 
量不平等。分位数比和份额都具有尺度无关的性质。 

洛伦兹曲线在时间上的变化并不总是反映不平等随时 
间变化的清晰模式。当两个时期的洛伦兹曲线相交时，我们 
就不能认为某个时期比另一个时期更不平等。我们将在第5 
章中对洛伦兹曲线的相交进行更详细的讨论。 

基于分位数和基于份额的不平等测量的灵活性吸引着 
许多研究者和读者。然而，这一灵活性是有一定的代价的， 
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即概要数据的量会变得很大。这就需要研究者根据特定的 
研究背景来选取适用于整个收人分布的一套灵活的测量或 
一个概要测量。 

基尼系数 G 可以直接根据洛伦兹曲线加以界定，且具 
有简单的图形表达。既然完全平等情况下的洛伦兹曲线以 
对角线表示，且洛伦兹曲线总是位于对角线处或其下，那 
么，我们就可以通过计算对角线下方到洛伦兹曲线上方之 
间的面积来测得到平等的距离。两个面积的差值乘以一个 
因数2,就得出一个取值范围为0到1的不平等测量。越大 
的基尼系数值对应着越高的不平等程度。 

图 3. 1呈现了最小、最大和两个其他基尼系数 G 值所对 
应的四条不同的洛伦兹曲线。图 3. 1U) 对应完全平等的情 
况， G= 0,此时，每一个个体都得到相同份额的总收人。图 
3.1(b) 和图 3.1(c) 对应一些个体具有比另一些个体更高收人 
的情形，其中，图 3. 1(b) 比图 3. 1(c) 更平等。图 3.1(d) 中的洛 
伦兹曲线展示了不平等最极端的情形，即某个人拥有所有的 
收人而(其他） «-1 个人根本没有收人，这时，基尼系数所测 
量的区域为单位正方形的整个右下三角，使得 G= 1。 

各种等价的方程可用来计算基尼系数。令 IX/0 表示特 
定比例/>处的洛伦兹函数，我们可以将平等曲线 （equality 
curve) 和洛伦兹曲线之间的面积表达为平等线下方面积 A 
和洛伦兹曲线下方面积 B 之间的差值。因此，表达基尼系数 
的一个方法是写出以下 方程： 


G= 2(A-B) = 2( 'pdp— 'L(p)dp) 


p — L(p) 


dp 


[3. 6a」 
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0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 
P 

( d ) 

图 3.1 最小、最大和两个其他基尼系数值所对应的洛伦兹曲线 

但是，以总体…，％中所有可能收人对的差值形式 
来表达基尼系数方程也是可行的，即所有 nin-D/2 个可能 
收人对之间平均差异的一半，并以平均收人加以标 准化： 

1 S I ： y, — 乂 I/(n(w_ 1)/2) 2 lx —y；l 

G == 丄 _ __ _ 

2 y n(n— 1) 夕 

[3. 6b] 

这个方程清楚地表明基尼系数的最小值为0,此时，每个 
人具有相同份额的总收人。另外，当一个人具有全部收人 
时，取得最大值1，所以 G 的取值范围为[0, 1]。 

表 3. 1第十行显示，收人的对称分布的基尼系数为 
0.117 。 在第二列中， G 在纯粹位置移动的情况下有所下降 
(0.097)。 G 是尺度无关的，因为它基于本身就是尺度无关 
的洛伦兹曲线，如第2章中所指岀的那样。尺度无关性根据 
方程 3. 6 b 也看得很清楚，因为平均收人5出现在分母中。左 
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偏变化将 G 减小到 0. 081，而右偏变化则将 G 增大为 0. 219。 
美国收人的 G 从1991年的 0. 385上升到2001年的 0. 424, 
反映了位置和形状改变(尽管不是尺度改变）。 

根据社会福利函数推导得到的不平等测量 

现在,我们介绍如何使用社会福利函数来得到不平等测 
量。根据阿特金森的研究 ，一 个由《名个体组成的社会的收 
人成分可被合并成一个《维排列（: yi ， …，％)，其中，: v , 表示 
第/名个体的收人水平。社会福利函数是将一个值 
wo , ，…， ％)赋予每一个可能的收人〃维排列的函数，这个 
值代表了该社会在取得特定的收入《维排列情况下的集体 
福利。因此，如果 W ( yi ， …， 5 U , 那么，对 
于该社会全体而言，（: yi ， …，： y ,,) 就被认为是比 (5 i ， … ，夂） 
更可取的。 . 

社会福利函数的性质可被用来反映社会性的平等和公 
平目标 ( Deaton ， 1997)。比如，我们可以对社会福利函数强 
加这样一个属性，即更平等的分配被认为优于更不平等的分 
配，因此，在一个社会的总收人保持不变的情况下，社会福利 
在收人被平等分配时达到最高。同样，我们也可以构造一个 
社会福利函数，使得社会福利在每当任意一名个体变富而并 
没有人变穷的情况下(帕累托改进)都会增加，这个性质被称 
做“公平偏好”。 

为简单起见，社会福利函数被都假定是个体效用的一个 
合计.因此，它有一个简单的加法形式 W (%， …，％ ) = 

^ U ( y .) a 这里， U 是一个函数，意在反映每一个将其与一 

j — 1 
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个特定收人水平联系起来的效用，也被称做“社会效用函 
数”。此函数被假定对于所有的个体而言都是相同的。我们 
将把注意力集中在以这一方式构建的社会福利函数上， U 在 
这里被假定是单调非减的和凹形的。这些假定都是情理之 
中 的:单 调性确保公平偏好性质得以 维持； 凹形假定是个常 
见的假定，相当于边际效用递减假定。 

在这些假定之下，社会福利函数呈凹形，意味着与两个 
收人 n 维排列的加权平均值相对应的社会福利，至少和与每 
个排列相联系的社会福利的加权平均值一样大。在一个富 
人和一个穷人之间进行简单的收人转移时，只要这两人之间 
的秩仍未改变，就符合社会福利不减少。这就是最初由道尔 
顿提出的“转移性原则” （ Dalton ， 1920)，我们将在第4章中 
进一步讨论。 

一旦确立了社会福利函数的具体形式，就有可能引人基 
于“平等分配的等值收入”这一概念的不平等测量。这被定 
义成每一个体所得到的收人 y 会将社会福利提高到与实际 
相同的水平，即 w ( y , …， y ) = 的解，或者 

U(y') =-Eu( x ) 的解。在对社会效用函数 u 进行仿射 

n f = i 

变换 $ 的情况下，平等分配的等值收人是恒定的，这意味着， 
如果我们通过选取常数 a ( a > 0) 和6对社会效用函数1/得 
到 U(y) = +6来定义一个新的社会效用函数1>，那 

么 ，，对 U 和1/两者而言是相同的。 

在上述假定之下，我们有 W ( y ， y')^W(y, 


①仿射变换是一种二维坐标到二维坐标之间的线性变换。这种转换可保持二 
维图形的"平直性”。 —— 译者注 
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夕)，因此 y < 3 ,也就是说，平等分配的收人并不会大于平 
均收人。通过平等分配可得的收人，从社会福利的角度看， 
使社会变得更富裕。那么，比值/ G 可被视为一个平等测 
量。如果此比值接近1，那么，社会就可以重新平等地分配其 
所有可得的收人，并大致得到相同水平的社会福利。如果此 
比值为40%，那么，社会可以通过将总收人的现值减少40% 
并平等地将其分配来实现完全平等。平等分配所有收人并 
实现相同的社会福利所需要的收人减少越少，社会就越接近 
平等。阿特金森介绍了使用量 i — y / s 来测量不平等的思 
路。这个量也取0到1之间的值，其中，0表示完全平等。值 
越大表明越不平等，但这取决于社会效用函数，该值不可能 
为1。 

经效用函数仿射转换得到的 y 的不变性性质，直接导 
致了相应的不平等测量具有相同的性质。这很有吸引力，因 
为通过尺度改变或变化来调整社会效用函数不应对不平等 
测量造成影响。最后一个强加给我们的不平等测量的关键 
性质就是收入尺度无关性，即如果对于一个正的常量 c ，以 

，…， oO 来取代收人的 n 维排列，那么，不平等的水平 
不应被改变。当我们将这一条件强加给不平等测量时，社会 
效用函数的可能情形就被减少成一组形式为= y 或 
U(y) = log(>0 的社会效用函数的仿射转换，这里， c 为某个 
小于或等于1的数值。我们习惯上用参数 e = l — c 而不是 c 
来表达使用仿射转换形式= (^'-- l )/( l - £ ) 的社会 
效用函数族，这里, e 被限定为非负数。请注意 ， e = l 的情形 
在上述定义中未被明确定义，但是，随着 e — 1 [7] ， 这一规则 
使我们能够将= log(y) 作为这一族的极限情形，因此, 
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我们用符号 U ( W 来表示这一特殊情形。请注意，对于 e > 
1， U e (0) 的值并未被明确定义，但这种情形确实落人极限， 
随着7趋近于0, [/ s (>0 的值趋近于一％.因此，如果任何单 
个的个体都没有收入，社会可被视为正处在一个极其危险的 
状态之中。既然一些人没有收人可以是一个经常发生的事 
情，那么，这一取值范围上 e 值的使用可以被证明是成问 
题的。 

我们已经得到了具有若干可取性质的社会福利函 数族： 



这里，参数 e 的值为非负数，同时，我们将 W , 理解成 

-E log (^,) 。参数 e 被定义为不平等厌恶参数，读者很快就 
71 » = 1 

会明白这么定义的理由。这一参数的选择意在反映作为整 
体的社会行为。一旦确定了不平等厌恶参数的选择，通过求 

解方程 = 就可以简单而直接地得到平 

n i = \ 

/ 1 " X 1/( 1-E) 

等分配的等值收人，同时得到解 y = 。这 

里应当强调的是，每选取一个不平等厌恶参数 e ，都会得到一 
个不同的 y 值，因此，为了避免混淆，我们可以用符号 y ( e ) 
来表示这个量。当 e = o 时，平等分配的等值收人为平均收 
人5^洽好与社会福利价值相符。因此，对于那些较小的不平 
等厌恶参数取值，任何不改变总收入的收人不平等都对社会 
福利有最小的影响。对于£等于1时这一特例，我们会得 

到几何均值 y (1) = ( 1"[乂^ \推导(见发布在作者网站上 
的第3章附录 a ) 表明，^着不平等厌恶参数 e 的上升，平等 
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分配的等值收入， （£) 会下降。如果单个个体的收人为0且 
£>1,那么，上的指数就是负的 ® ，同时，我们可以将 
y ( e ) 的表达式解释为0,尽管这是在将收人向量视为包 
含所有正值的收人向量序列的一个极限的情况下取得 
的值。 

此时，对于 e > 0的每一个可能取值，我们可以介绍阿特 
金森不平等指数族人，它们是与所考虑的社会效用函数的 
具体形式相联系的阿特金森测量。这些测量可以根据 y ( e ) 
的表达式直接得到，并写成以下 形式： 

^(^ 1 - yj = 1 — y' (e)/y = 1 — 丄士 (4) 

[3.7] 

这里， e 关 1 ，而在 e = 1 的特殊情况下，我 们有： 

A, (y,, •••, y„) = 1 — ( XI (^./^)) 

i = l 

现在， e 为什么会被定义成不平等厌恶参数就变得很清 
楚了。在阿特金森的方法中，被定义成 i_y ( e )/5 的不平 
等会随着参数 e 的上升而增大。如果 e 非常接近于0,那么， 
无论收人被如何分配，阿特金森指数都会取一个接近于0的 
数值，同时，社会可被描述成对收人不平等漠不关心。对于 
两个具有完全相同的收人分配的不同社会，第一个社会具有 
参数 e , 而第二个社会具有参数&，且 ei < e 2 ，那么，第二个社 
会将会被认为其不平等更严重，且可被描述成更厌恶不平等 
差异。 


①即此时 1— £小于0。——译者注 
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考虑阿特金森指数的可能取值范围很重要。在下端， 
当收人在整个人口中被平等分配时，对于所有的 Z ， 有 X = 
>同时，所有的阿特金森指数都取0 值； 在上端，指数不能 
超过1。对于€<1，当某一个体拥有所有的收入时，就出现 
了最大的不平等，同时，我们得到 A e = 1- 。如果 n 

较大且 e 不很接近于0,那么，这一数值将接近于1。如果 
£>1，可使接近于由某一个体得到了几乎所有的收人 
而其余人口则分享剩下部分的收人的向量所要求的取值。 

表 3. 1第十一行记录了 A 1 2 的值。对于收人的对称分 
布，该值为0.011，它在尺度改变之后仍然相同。正的位置改 
变实际上提高了均值以下收人的比值 . y , 而降低了均值以 
上收人的该比值，因此降低了由阿特金森指数 （0. 007) 所测 
得的不平等。同样，左偏改变也改变了比值将 A 1 2 减 
小到 0. 006。相比而言，右偏改变也改变了比值3；, / A 并将 
A 1 2 增大到 0. 038。提高不平等厌恶会导致更大的不平等，如 
表 3. 1第十二行和第十三行所示，其中， e 从 e = 1到 e = 2的 
加倍导致不平等也提高了两倍多。表 3. 2第十一行到第十 
三行中取自 SIPP 的真实数据显示， A " 2 从1991年的 0. 123 
上升到2001年的 0. 149。对于这两年而言， A 2 的值几乎是 
A , 的值的三倍。 

根据信息理论发展得到的不平等测量 

熵 

信息理论使用被称做“信息熵”或“香农熵”的测量来量 
化概率分布(或随机变量）的随机度。术语“熵”表达了不确 
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定性。如果我们考虑一个实验，其中的一个随机变量能够以 
概率 A ， …， 九取〃个可能值之一，那么，与该分布相联系 
的熵被定 义为： 

H ( pt ， ―, p „) =— ^ p . hg ^ p ,) 

请注意，定义熵时，简单地以2作为对数的底。我们可以用 
任意的底数来定义熵，它只具有将全部熵都乘以一个常数因 
数的效果，也就是说，如果我们转而使用自然对数，那么以上 
定义的所有熵都被乘以 log (2)。 如果某一结果是确定的， 
因此对于某一个：，有 A = 1 (使所有其他概率都为0)，那 
么，此处的熵就为0。™ 

最简单的例子也许就是投硬币实验的情况。这里，有两 
个可能的结果，每一个结果出现的概率为1/2,使得 熵为： 

H(l/2, 1/2) =—+log 2 (l/2 ) —士 log 2 (l/2) = 1 

这个例子解释了为什么我们以2作为对数的底。熵被 
视为对实验中的信息进行编码所需要的字节数。此处，包含 
两个可能结果的实验结果只需要一个字节。我们可以认为， 
熵是在测量以投掷硬币作为基本单位的分布的随机性。更 
一般地来说，我们可以考虑一个两类结果的实验，其中，结果 
出现的概率为/>和1_/)，这里>为0到1之间的任意数字。 
此实验被定义为伯努利试验。此处的熵由下式给出： 

H ( p，l — p ) — — p \ og 2 ip ) — (1 — p ) log2(l — p ) 

=—log 2 (/j f (l —p) 1 — p ) 

这个熵用图形表示，很像一个倒过来的、对称的抛物线。 
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凭直觉，对于投掷一枚分布不均匀的硬币的情况，当正面朝 
上的概率为1/2时，熵(不确定)会达到最大。 

如果 X 是一个以概率允，…， A ■取 n 个可能值的随机 
变量，那么，我们可以将 …， 久）定义为 X 的熵，并将 
其记为 H ( X )。 熵只取决于实验中各类结果出现的概率，指 
派给这些结果的特定标签本身并无任何影响。因此，与结果 
出现的概率为內，…，九的实验相对应的熵并不会受到对 
结果(因此也是概率)进行重新排序的影响。 

熵有很多重要的性质，我们在这里介绍其中的一些。一 
个关键的性质是独立条件下的可加性。我们来考虑两个实 
验:在 第一个实验中，我们观测到一个熵为 H ( X ) 的随机变 
量 X ，在第二个实验中，我们观测到熵为 H ( Y ) 的 Y 。 那么， 
在 x 和 y 相互独立的情况下观察到（ X ， Y ) 对的组合实验 
中 ，（ X , Y ) 对的熵为各熵 之和： 

H ( X , Y ) = H ( X ) + H ( Y ) 

为了领会这一点，设想 X 以概率 &，•••， />„来取得值 
1 , •••> m , Y 以概率 <7 i ，…， 9 - 来取得值1 ，…，《，那么， 
( X , Y ) 对就以概率取得值 G '， J )。 因此，对应此组合实 
验的熵由下式 给出： 

W =- J] ul P,(}Aog(p,q 1 ) =~ X) „ ,P^, ( ) + '°8 ( ^ )) 
=- lo g( a. )+- iog(%) 

=- S ，- P , log ( p ,) +- 2 log (9；) 5] , p > 

=— 2, A . log ( A -) — = H ( X ) + H ( Y ) 
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由于概率分布的熵是在不管有多少个结果的条件下定 
义的，因此，我们需要理解不同数量结果的熵是如何相互联 
系的。比如，如果 H 是与概率…，/>„相对应的熵，且这 
些概率的其中之一 被分成了两部分，比如 ， A = 9,+ r , ，那 
么熵会 增加： 

H(p' ， … ， pH ， q, + r, , p M , … ， p„) 

< Hipi ， q t , r, ， p^, •••, p„) 

此外，熵函数是凹性的 [9] ，因此，对于一对概率分布 
户 1，…， 久和 9 i ，…，以及一个常数 A 6 [0，1]，我 们有： 

•••, p„) + (1 — A) (?i 1 ••- > 9„) ) 

^XH(p x , />„) + (1 —A)H(q! ,•••, q„) 

这一不等式有如下解释。以下概率的 分布： 

A(/>i ， … ， P„) + (1 —A)( 9 i , q„) 

= i\p\ + (1 — A)% ， … ， A/>„ + (1 ~X)q„) 

可被看成是投掷一枚分布不均匀的硬币的同时 ，对办 ，…， 
A ■所 界定的概率为 A 的分布和&,•••， 仏所界 定的概率为1 
一 A 的分布进行抽样所得到的。这被定义为这两个分布的混 
合。那么,不平等表达的是两个分布的混合的熵至少与这两 
个分布各自的熵的相应混合一样大。 

份额的熵 

既然熵提供给我们一个概率单位在《个结果之间不均 
匀分配程度的量，那么，我们自然也可以用相同的思路来量 
化总收入在某一人口中不均匀分布的程度。假定人口中个 
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体的收人为: yi ，…， ： y „ ，因此，个体 〖的收 入份额为^ = 
y,/ny, 且这些份额相加等于1，即= 1„我们将这些 
份额当成概率来处理，将量 H = - SL ^. logCs .) 定义成一 
个收入不平等测量(请注意，这里我们使用了自然对数)。 

基于熵的不平等测量 

介绍基尼系数时，我们测量了洛伦兹曲线和平等线（它 
对应于完全平等的情形)之间的面积。采用类似的方式，我 
们可以计算在每个人获得相同收人份额这一完全平等的情 
况下，得到的熵与实际收人份额情况下的熵之间的差。所得 
的测量被定义为“泰尔不平等指 数”： 

T = H(l/n, •••, 1/n) — H(s：, ■■- , s„) 

,, „ [3. 8 a ] 

=—S T ' 1 0 g (^-)+ Si ', log (5,) 

i = l 71 71 i=l 

T = log (. s -,)— bg (士） [3. 8 b ] 

i=i L n - 

T -| Sf [ lo g ( f )] [3.8 c ] 

该指数的这三个表达式是等价的。 [ 1 G ] 方程 3. 8 c 表明， 
收人与平均收人的比值 X 勹是隐含在该定义中的基本元素。 
与在对数方差和阿特金森指数中的情形一样，收入比确保了 
泰尔不平等指数是尺度无关的。 

既然泰尔不平等指数是完全平等情况下的熵减去实际 
测得的熵，那么其取值就位于区间[0, logU )] 上，其中，0 
表明完全平等，而 log («) 表明极其不平等（一个人拥有全部 
收人）。因此，尽管熵在所有概率都相等的情况下取得最大 
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值，但这对应着泰尔不平等指数的最小值，此时，所有的收 
人份额都相同。 

熵的凹函数性质直接导致泰尔不平等指数极具吸引力 
的一个性质。设想有两种政策，某个人口将依据它们来分配 
总收人。在第一种政策下，令分配比例为 a ，…，在第二 
种政策下，这些比例 记为切 ，…，％。那么，在第一种政策 
下，个体；得到比例为的总 收人; 而在第二种政策下，这一 
比例则为 9 ,。 现在，我们可以用这两个基本政策下的平均比 
例来定义一个新的分配政策，因此，个体；得到的收人比例为 
|( A +9,)。 熵的凹函数性质会确保这一组合政策下的泰 
尔不平等指数不大于两种政策下各自泰尔指数的平 均值： 

丁组合政策< (了 '政策1 + 了政策 2) 

更一般而言，我们可以建构两种政策的加权平均值。取 
任一取值范围为0到1的常数，并按照政策1和政策2下所 
得份额的加权平均值，将收人分配给每一个个体，也就是说， 
个体得到的收人份额为 /^, + ( l _ A )9,。 熵的凹函数性质确 
保不平等的泰尔测量永远不大于这两种政策下，各个泰尔不 
平等测量的相应加权平 均值： 

了'组合政策 < 义了'政策】+ (1 — A ) Tjg t * 2 o 

表 3. 1第13行给出了收人对称分布及其4种改变分布 
的泰尔不平等指数。该指数在对称分布收人情形中取值为 
0.022,与尺度改变分布情况下的值相同。该指数在正的位 
置改变和左偏改变之后降低，但在右偏改变之后却升高。同 
样，表 3. 2第13行显示，泰尔不平等指数从1991年的 0. 244 
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上升到2001年的0.310。 

以熵和泰尔指数表示的收人份额的对数转换只是转换 
族中的一个例子。考维尔用下述熵更一般性的定义介绍了 
修正的信息理论测量族 ( Cowell , 2000)： 

阳 =A [ 士 S(f,-1] [3_9] 

这里4为敏感性参数，其取值可以是任意实数。0越是为正， 
该指数就越是对分布顶部的收人差异敏感，故被定义为“顶 
部敏感的”广义熵指数。同样，0越是为负，该指数就越是对 
分布底部的差异敏感，故被定义为“底部敏感的”广义熵指 
数。与泰尔指数的情况一样，广义熵也是尺度无关的。 

当0=1， (9=0 或0=2时，根据方程 3. 9可以推导出一 
些特殊形式（请见发布在作者网站上的第3章附录 B )。 当 
沒=1时，我们会得到泰尔 指数： 

GE, =+g(f)Mf)= 丁① 

当0=0时，我 们有： 



这被称做“平均对数离差”。当0 = 2时，我们得到 GE 2 = 
c 2 /2, 即变异系数平方的一半。0的其他特殊取值通常都与 
熟悉的不平等测量有关联。当时，广义熵与反向个体 
特性的均值相关。当0<0<1时，广义熵与阿特金森指数具 


①此方程略有改动，去掉了原文方程等号左边字母 G 的标记——译者注 
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有常见的关系。对于阿特金森族中的每一个指数（以不平等 
厌恶参数来定义），广义熵族中都有一个等价指标。不过，由 
于0可以取(0, 1) 区间之外的任意数值，所以，相反的情况并 
不成立。 

表 3. 1第13到第17行列岀了广义熵的四种特殊情形。 
在第14行中，泰尔指数与0= 1时的 GE , 相同。随着0在第 
14行到第16行中从1下降到0和一 1，我们看到，收人对称 
分布及其四种改变分布的0拉值在不断上升。在第17行 
中，我们看到， GE 2 为变异系数平方的一半 ( c 2 /2)。 广义熵在 
尺度变动后仍然相同。以广义熵测量的美国收人不平等显 
示在表 3. 2第14行到第17行中。请注意，广义熵的时间趋 
势必须用相同敏感参数0加以考察。比如，与关注分布的中 
间部分的 GE , = 了相比，底部敏感的不但表明1991年 
和2001年的不平等程度更大，而且显示出这两年间不平等 
的增长速度也更快。 

广义熵测量具有很多有用的性质。但最重要的是，广义 
熵能足够灵活地以满足各类具体实质需要和符合不平等测 
量的所有基本原则的方式，来刻画不平等的特征。 
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第 2 节 I 适用于含非正数取值变量的 
概要不平等测量 


迄今为止，我们一直将收人或其他资源作为不包含负值和 
零值的情况来对待。许多经验研究都关注正值收人的分布，因 
为负数收人(比如，由于资本损失)或没有收人的人口比例通常 
非常小。经验研究工作中的做法是删除那些包含负值或零值的 
案例。对于以资产净值(总资产减去总负债)来衡量的财富而 
言，情况变得十分不同。没有正的总资产净值的家庭户的比例 
很大(根据 SIPP 数据，2001年时为17%)。比如，因助学贷款所 
导致的负资产净值源于生命周期差异。人们通过承担信用卡 
债务来均衡消费。房产市场泡沫和随后的危机能够大大降低 
一处房产相对于抵押贷款的价值，从而导致负的房产净值。 
金融市场危机可以大大缩减人们持有的股票与债券投资的价 
值。因此，总价值为负值或零值的家庭户太重要了，不能删除。 

这里所回顾的不平等测量并不都能处理收人变量的负 
值或 零值; 使用对数函数的不平等测量不能处理非正数取 
值，除 G £ 2 之外,阿特金森指数和广义熵族的一些测量也能 
处理非正数取值。方差、变异系数、基尼系数和基于分位数 
的测量都可以用来考察这些情形下的财富不平等。 

根据1991年和2001年的 SIPP 财富数据，表 3. 3给出了可 
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以处理负资产净值和零资产净值的不平等测量。负资产净值的 
家庭户比例为 8. 4%，零资产净值的家庭户比例为 4. 4%，这样. 
1991年时没有正资产净值的家庭户比例共计为12.8%。2001 
年的相应数值分别为 12. 9%、 4. 3%和 17. 1%。极差和标准差 
在这10年间大大上升，反映出2001年资产净值上的分化要比 
1991年大得多。变异系数从 1. 73上升到 8. 84,主要反映了方差 
的增长(尽管以一个很小的因数对 r 进行调整的情况下的资产 
净值中位数达到了 6303美元)。分位距妁5到焯上升了几乎 
一半。请注意 ，妁是 个负值，因为超过5%的家庭户在这两年中 
的资产净值都是负的。我们没有用基于分位数的偏度，因为近 
4%的家庭户的资产净值为0,这使得资产净值分布呈现出多峰 
样态。底部20%的家庭户的资产净值之和在这两年都为负值 


(负资产净值之和大于正资产净值之和)，导致1991年的份额为 
一 0.010, 2001年的份额为一 0. 018。顶部20%的家庭户的份额 
从 0. 699上升到 0. 766,基尼系数也从 0. 700上升到 0. 769。 


表 3.3 家庭户资产净值的不平等 测量: SIPP ( 1991年和2001年) 



不平等测量 

1991 

2001 

1 

与概率分布相联系 
尺(极差 ）（1000 美元） 

6850 

221977 

2 

vV ( 标准差 ）（1000 美元） 

200 

1458 

3 

H 变异系数） 

1. 730 

8. 840 

6 

基于分位数函数和洛伦兹曲线 
/>95 >50( 分位数距 ）（10 ⑻美元） 

463 

664 

8 

底部1/5的份额 

-0. 010 

一 0.018 

9 

顶部1/5的份额 

0. 699 

0. 766 

10 

G (基尼系数） 

0. 700 

0.769 


负值的百分比 

8.4 

12. 9 


零值的百分比 

4.4 

■1.2 


中位数(美元） 

45843 

52146 


资料 来源: SIPP „ 
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第 3 节1小结 


本章介绍了一套选取的概要不平等测量。附表 A1 列出 
了每一个测量的名称和公式。通过以假设的和真实的例子 
进行示例说明，我们讨论了每一个测量背后的基本原理，并 
通过位置、尺度和形状改变将它们联系起来。具体研究中不 
平等测量的选择取决于一些原则，它们使得我们能在各方面 
对不平等测量进行比较。我们将会在下一章中讨论该问题。 
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不平等测量的选择 
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I 评估不平 s 


第3章中所讨论的一些概要不平等测量属于指数族，且 
每一族都涉及一个可以取许多值的参数。既然概要不平等 
测量数量众多，那么，我们如何选取一个或若干个满足具体 
研究需要的测量呢？ 了解一个不平等测量是否满足具体研 
究所期望的某些原则是个好的开始。我们现在就开始讨论 
这些原则，包括弱转移原则、强转移原则、尺度无关性、人口 
无关原则和可分解性。我们将定义这些原则，解释为什么它 
们对于选择不平等测量而言是重要的，并检查第3章中所讨 
论的每一个不平等测量是否满足这些原则。本章也_供了 
适合这些原则的经验例子。在介绍了五个原则之后，我们会 
讨论选取对一个人口进行考察的不平等测量的理论和实际 
考量。最后，我们提出洛伦兹占优作为对不同人口进行比较 
的一个首要指导准则。 
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第1节 I 弱转移原则 


由道尔顿首次介绍的转移原则现在被称做“弱转移原 
则”，该原则关注两个社会成员之间的一次收入转移之后社 
会福利的变化，如第3章中的讨论。我们设想以下情 景：出 
现了收人从一个更穷的人向一个更富的人的转移，但这两个 
人相对于对方的总收人以及转移以后的秩都没有改变，也就 
是说，不到他们收人差值的一半被转移了。在其他情况相同 
的情况下，收人从更穷的人向更富的人的任意一次转移，都 
应当总是使得不平等测量上升 （ Sen ， 1973)。此原则被称为 
“庀古一道尔顿转移原则”。森 ( Sen ) 写道： 

实际上，早在1920年时，休.道尔顿 （Hugh Dalton ) 
已经论证过，任一不平等测量必定具有这一对低限度 
的性质。既然道尔顿在这点上追随了他在此语境中所 
引用的庀古的指引，我们必须称之为“庀古一道尔顿 
条件”。 

这一条件现在被称为“弱转移原则”，它表达了在其他条 
件相同的情况下，收人从更富的人向更穷的人的转移会导致 
不平等的缩减。 
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I 评估不平等 


第3章中回顾的许多不平等测量都服从弱转移原则。 
正如第3章中详细讨论过的，阿特金森指数族和一般性的熵 
测量族满足此原则。基尼系数 G 通常也等价于阿特金森指 
数 ( Sen ， 1976)，故也满足此原则。 

不过，对数方差 r 和方差的对数％并不总是服从弱转移 
原则。我们有可能阐明一些解释收入转移如何影响对数方 
差 u 的结果。这些结果取决于与收人分布的上尾部有关的 
某种条件，它表明，总体中的所有收人水平都不超过 A ， 其 
中，夕表示总体均值，而 e = 2. 71828。这一条件说明，最高收 
人水平相对于平均收人而言，并不算太极端。对于收入或其 
他资源的右偏分布，最大值不到均值的三倍是少有的，这将 
导致此条件得不到满足。在任何情况下，如果收入分布满足 
这一条件，那么，对于收人满足 y < X 的任意一对个体 z 和 
j ，当我们将收人额 + 从个体 j 向 个体〗 转移 
时，以 r 测量的不平等会下降。另一方面，当条件不满足时， 
对于其收人满足丸< : y , < 乂的任意一对个体丨和_;，收人 
额 j (： y , +乃）从个体7向个体；的转移会导致以 d 测量 
的不平等上升。对数的方差 n 不满足弱转移原 Jpj 的原因更 
为直观 (Foster & Ok , 1999)。因为转移被界定，以便不改变 
总收人，所以，大多数不平等测量（除了 a ) 中所使用的平均 
收人3也并未发生变化。但是,对数收人的均值在转移后发 
生了变化。如果对数收人的均值的变化超过了个体收人的 
变化，那么^也许在富人到穷人的收人转移后会上升。如 
果转移不处于极上尾部，这一条件也不可能碰巧出现。 

比如，使用 SIPP 2001年的数据，为了使对数方差 I 在从 
%到的转移之后增加，我们在孓< y < X 的条件下，人 
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为地制造一次富人到穷人的收人转移。我们根据收人对家 
庭户进行排序，以识别出1096(4%)个收人超过孓=136822 
美元的家庭户。然后，最高排序的家庭户将290000美元(这 
不到他们收入差值的一半)赠与顶部4%里最低排序的家庭 
户。转移之后，赠与者仍然比受赠者更富有。转移前 ， u = 
0. 96850,转移后 ， v = 0. 96854. 表明尽管岀现了富人到穷人 
的收人转移，但不平等却在增加。同样，对数的方差也增加。 
同时，方差、变异系数、基尼系数、阿特金森指数和广义熵测 
量都下降。 

基于分位数的不平等测量也可能不满足弱转移原则。 
收人处在界定测量的两个有关分位数之间的两个个体间的 
收人转移不应导致该测量的 改变。 使用上述顶部4%的富人 
到穷人收人转移的例子，我们发现，/>95到妁分位数距、中 
间90%家庭户的基于分位数的偏度、底部1/5的份额和顶部 
1/5的份额都仍相同，尽管顶部4%中出现了收人转移。虽 
然不满足弱转移原则，但基于分位数的测量却经常被用在政 
府统计和学术研究中。采用基于分位数的测量的主要优势 
在于，分位数不会受异常值或公用调查数据中经常用到的顶 
部编码的影响。在沖5到妁分位数距的情况下，只要顶部 
编码位于邱5之上，该分位数距就不会受顶部编码的影响。 
反之，顶部编码确实会对包括顶部编码在内的所有数据点的 
概要不平等测量造成影响。 



60 


I 评估不平等 


第2节 I 强转移原则 


尽管弱转移原则阐明了转移后的收人分配比转移前的 
收入分配更不平等，但它并没有告诉我们，当转移发生时，不 
平等变化的程度。要求间隔相同“距离”的两个个体间的一 
个固定的转移量带来同样多的不平等减少似乎是合理的。 
换言之，对于固定距离上的一次转移，所引起的不平等变化 
只取决于赠与者和受赠者的收入份额。因此，可以对以每一 
个指数包含的“收人份额之间距离”的形式，对不同指数进行 
比较。这就引出了强转移原则。要满足强转移原则，不平等 
测量需要满足弱转移原则。强转移原则说明，收人转移会减 
少不平等，而且，不管赠与者和受赠者在收人分布上位置如 
何，如果相同的转移出现在相同距离的两个人之间，那么，不 
平等减少的量是相同的。术语“距离”必须小心地加以解释， 
因为对于一个给定的满足强转移原则的不平等测量，必须设 
定测量距离的方法。 

我们考虑的所有距离，都通过使用绝对差值或某一转换 
之后的绝对差值，抑或通过排序来得到。当更富者的收人为 
. s - 2 而更穷者的收人为5,时，所考虑的最基本的距离是简单绝 
对差值测量&一 h 。使用这一距离测量，方差 V 满足强转移 
原则。但是，变异系数 c 在采用这一测量时，并不满足此原 
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则，因为正如可证明的那样，收人相差一个固定量的个体间 
的收人转移所导致的 C 的变化取决于V的值。 

与满足强转移原则的不平等测量相关的其他距离测量， 
可用上面应用收人转换之后的距离来定义。一个例子就是 
两个对数转换的收人份额之间的绝对差值。泰尔指数使用 
收人的对数转换，因此，两个人收人之间的距离为对数距离， 
即 l0g(5 2 )-l0g(5 1 ) o 也请注意，广义熵的特例 G & 等价于 
T， 因此，对数距离应用于 GE ,。 对于包含设定0值的广义 
熵，我们使用了一个涉及收人份额的指数函数的不同 转换： 


e-\ e-i 

这一指数距离在0 = 2时，简化为绝对距离 s 2 — &，而在0 = 
1时，则简化为对数距离。对于阿特金森指数族，个体7到； 
较小数量5的收人转移会导致不平等测量上接近50/(於） 
- U ' iy ,)) 的变化，因此，这些测量可被认为满足强转移原则 
的极小形式，它建立在以社会效用函数形式定义的距离 
U ^ y ^- U ^ y ,) 的基础之上。没有与基尼系数相联系的天 
然的距离测量，但与强原则类似的一个属性对基尼系数而言 
是具备的。 

对于都位于下端尾部、都接近中位数处或都位于上端尾 
部的两个个体之间的收人转移而言，这一原则的强度确保了 
相同的不平等减少，只要它们之间间隔的距离（专门对应那 
个指数的)相同。如果研究关注的是不平等变化的秩和量， 
就需要这个属性(“基数”属性），但是，如果研究者的主要关 
注点是比较各分布时的序次，它可能就太严格。 
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第3节 I 尺度无关性 


尺度无关性问题在第3章中对不平等测量进行介绍时 
就被提及。如果一个不平等测量在尺度改变——总体中每 
个人收入上一 个固定 百分比的上升（或下降)——后仍未变 
化，它就被认为是尺度无关的。所有用平均收人、总收人或 
任意收人（比如，几何平均收人和中位数收入)进行了标准化 
的不平等测量，都具有这一属性(请见附表 A 2)。 d ®、 G 、 
T 、 A , 和 GE 9 都以平均收入夕进行标准化 a 以平均对数收 
人 logO ) 进行标准化，基于分位数的偏度测量以中位数收入 
进行标 准化; 收入份额则以总收人进行标准化。相反，极差 
R 、 方差 V 和分位数距都不是尺度无关的。 


①原文此处的符号为 V ,但根据第3章的内容，实际上应该是对数方差队—— 
译者注 
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第 4 节 I 人口无关原则 


考察某一人口的收人不平等时间趋势，会因为此人口从 
一个时期到下一个时期可能正经历增长这一事实而变复杂。 
我们寻求独立于此增长的不平等测量方法。对于某一研究 
而言，人口的规模不应当影响对一个社会不平等趋势的量化 
或不同社会之间的不平等模式。人口无关原则是指，当我们 
测量某个人口的不平等时，这一测量只取决于此人口的收人 
分布。可争辩的是，比如，可以通过计算人口中被认为处于 
贫困中的个体数目来测量社会福利。但是，从历史上来看， 
这类分析一直不是不平等研究的焦点。人口规模无关原则 
与政府统计和学术研究中所见到的人均收入概念有关。 

我们可以做一个简单的练习来举例说明人口规模无关 
原则。 SIPP 数据2001年的总样本是 77= 27294„我们通过对 
样本中的每一个家庭户创建一个一模一样的家庭户，来将 
SIPP 数据的规模扩大一倍，所以样本规模现在是 272 = 
54588。显然，人均收人仍然未变。我们接着重新计算第3章 
中所回顾的不平等测量，发现它们在规模《和规模2«两种 
情形下完全相同。这说明，所介绍的选取的不平等测量满足 
人口规模无关原理。 
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第5节 I 可分解性 


一个社会通常按照种族、性别、教育水平、年龄和其他因 
素被分为各个群体。虽然相同层内的个体之间有存在差异的 
可能性，但我们会观察到通过它们所落人的不同层来解释的 
社会个体成员之间的一些差异。同样，我们会考虑分解某一 
既定不平等测量的可能性，因此，总收入不平等被区分成组间 
不平等（比如，黑人和白人之间的不平等）和组内不平等（比 
如，白人之间的不平等和黑人之间的不平等）。另一种类型的 
分解也非常自然地出现在实际应用中。比如，收人可以来自 
不同的来源，如劳动所得和非劳动所得，这就值得我们去了解 
总收人不平等如何被区分成来源间和来源内两个部分。 

如果一个不平等测量可被表达成组间不平等加上每一 
组内不平等的加权总和，那么，它会被认为是加和可分解的。 
这里,我们考虑到了权重取决于组内平均值和总平均值的可 
能性。我们继续介绍前面提到哪些不平等测量是加和可分 
解的，并给出每一种情形的详细分解。这需要稍加留神，因 
为我们需要对组间不平等的权重和测量进行区分。 

方差提供了一个熟悉且具有说明性的加和可分解概念。 
我们知道，总方差是组间方差与组内方差加权总和后的两者 
之和。我们将这一法则应用于规模为 m 的白人群体和规模 
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为 n 的黑人群体的经验数据。样本总收人的均值为 A 无偏 
方差为白人收人的均值为 hH ,、 无偏方差为，黑人 
收人的均值为、无偏方差为 v bU( 。 

通过将 W 个白人的收人都变为 Vwh ,， n 个黑人的收人都 
变为 y bUl ， 然后求出所得数据的方差，就可以得到组间方差 
V 6 。组内部分就是各组内方差的加权总和。因为无偏 
方差针对样本规模进行了调整(全部样本时为 m + n — 1、白 
人样本时为 w — 1、黑人样本时为 n — 1) ，所以，我们需要在 
计算每一个群体的方差时所用的权数中考虑这点。具体而 
言，白人的权重变成了调整的白人比例 （ m - l )/( m + n — l )， 
黑人的权重变成了调整的黑人比例 （《— l)/(m + «— 1)。请 
注意，这两个权重加起来并不等于1。采用这一设定，我们可 
以将基于经验数据的方差的加和分解表 达成： 





n — 1 

m+ 72 — 1 


Vbik 


[4.1] 


由于变异系数 c 为以均值标准化的标准差，因此，它的平 
方项 c 2 也是加和可分解的。？为以总平均值的平方标准化的 
总收人的方差。组间变异系数的平方#能以与取得组间方差 
相似的方式得到，即将白人平均收人给予每名白人成员，并将 
黑人平均收人给予每名黑人成员。这一组间项的标准化也是 
以总平均值的平方来进行的。不过，既然各组的变异系数的 
平方4,和是以各自组平均值的平方而不是总平均值来进 
行标准化的，那么就必须使用复合权重，它将调整的组群比例 
与组平均值和总平均值之比的平方组合起来。具体而言，白 
人的复合权重为 \_irn~ l)/(m + 72— 1)] iy^Jy ) 2 ? 黑人的复 
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合权重为 [(«— l)/(w + «— l )] ( y blk / y )\ 因此， c 2 的加和 
分解可表 达成： 


= C ZB + C 2W 



[4.2] 


泰尔不平等指数 了是加 和可分解的。总泰尔指数 T T 为 
组间部分加上组内部分。组间泰尔沪以与组间方差和组间 
变异系数的平方相似的方式得到，即赋予白人成员平均的白 
人收人，赋予黑人成员平均的黑人收人。不过，组内部分 T w 
的权重则与 V 或 c 2 中的情况不同。权重为组群收人在总收 
人中的份额：白人的权重为[吻咖八??! + «)夕]=+ 
行)](5^/刃，而黑人的权重为[>/(/71+71)](5^/50。那么，泰 
尔的加和分解 就是： 


Y'T _ 了 W 



[4.3] 


变异系数的平方和泰尔不平等指数都是广义熵的特例。在 
附录中(见作者为本书而建立的网站)，我们阐明了广义熵可被 
以加和方式分解成组间部分和组内部分。使用包含黑人一白 
人分组收人数据的相同例子，我们有以下一般表达式 ®: 


GE J g = GE: + GE: 


= GE：+^ (y^)GE：'+^- n (f)GET 

[4.4] 


①原文此处第二行等号后第一项为 Gg , 有误.这里已改为 GE ?。 ——译者注 
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请注意，在方程 4. 4中，两个权重相加通常并不等于1。 
方程 4. 4将方程 4. 2和方程 4. 3 —般化，适用于广义熵族中 
的每一个测量。 

使用方程 4. 1到方程 4. 4以及 SIPP 的2001年白人和 
黑人的收人数据，我们对 V 、 c 2 和: T 进行分解（见表 4. 1)。 
总样本规模为23585,其中，黑人的比例为 0. 1443。全部样 
本的平均收人为50911美元，其中，白人的平均收入为 
53655美元，黑人的平均收人为35198美元。对于这些测 
量，总不平等为组间不平等与组内部分(组间不平等的加权 
总和)之和。得到全部样本、白人样本和黑人样本的三个不 
平等测量很简单。为了建立组间不平等测量，我们通过将 
平均白人收人赋值给每个白人，平均黑人收人赋值给每个 
黑人来创建一个新的收人变量。每个种族群体的权重在三 
个不平等测量上并不相同。以白人的权重为例。对于 V ， 
白人的权重为调整的白人组群比例 （ m _ l )/( m+n — 1) = 
[23585(1-0. 1443) —1]/(23585 —1) = 0. 8557。因为样本 
规模很大，因此，这一调整的组群比例非常接近于未调整的 
组群比例。白人和黑人的权重加起来似乎等于1，但这是由 
于很大的样本规模所导致的。调整对小规模样本而言才是 
重要的。 c 2 在白人的权重为 V 的情况下的权重乘以 
(5 U /50 2 , 为0.9474。请注意，两个种族群体的权重相加并 
不等于1。对于： T ， 白人的权重为 [ m/(m + »)](5^,/5) = 
0.9004。白人和黑人的权重之和在这一情形中等于1。这 
个例子解释了与不同不平等测量相联系的各种权重。 
表 4. 2中的加和分解结果表明，总不平等的主要来源是组内 
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部分(97%—98%)，白 人一黑 人之间的不平等只解释了总 
不平等中的一小部分(2%—3%)。 


表 4.1 白人 一黑人 分组收入的三个不平等测置 
的加和分解 举例: SIPP(2001 年） 


不平等 

测量 

总的 

组间 

白人 

黑人 

白人的黑人的组内加总的一(组间十 
权重权重权总和加权的组内） 


2077 

(100%) 

42 

(2%) 

2212 

989 

0. 8557 0. 1443 2 °^ 

(98^ o ) 

0 


c 2 


0.7989 0.0162 
( 100 %) ( 2 %} 


0.7682 0.7983 0.9474 0.0688 


0. 7827 
(98%) 


0. 0000 


0. 3073 0.0089 
(100%) (3%) 


0. 2955 0. 3239 0.9004 0.0996 


注:样 本只包括黑人和白人，一共23585个家庭户。黑人所占的比例为 
0, 1443。全部样本的平均收人为50911美元，白人的平均收人为53655 
美元，而黑人的平均收人为35198美元。方差以百万美元的平方为单 
位。有关得到每一个群体权重的方法，请见正文。 


有两个现成的、用于分解不平等测量的 Stata 程序： 
“ ineqdeco ” 要求结果变量取正数值， “ ineqdecO ” 允许变量取任 
意值 ( Jenkins ， 1999)。出于举例说明的目的，非正数取值已 
被从 SIPP 的2001年收人数据中删除了。我们使用 Stata 中 
的 “ ineqdeco ” 来得到1991年和2001年广义熵族和阿特金森 
族的子群体分解。结果显示在表 4. 2中。尽管广义熵是加 
和可分解的，但阿特金森族并不是。不过，我们可以将阿特 
金森指数分解为组间部分、组内部分以及体现为组间和组内 
部分乘积的负数的残差之和。我们在表 4. 2中为阿特金森 
指数的每一数值增加了一列残差。该表并未给出基尼系数 
G 、 对数方差以及对数的 方差％ 的分解，因为它们都不是 
加和可分解的，而且，残差部分也不能像在阿特金森指数情 
况下那样，以组间和组内项来得到。 
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表 4. 2 白人一 黑人分组收入的三个不平等测置的 分解: 
SIPP (1991 年和2001 年 1 


项目 


1991 



2001 


总的 

组间 

组内 

残差 

总的 

组间 

组内 

残差 

GE -： 

1. 442 

0.012 

1.430 

0 

3. 022 

0. 011 

3. 011 

0 

GE 0 

0. 284 

0.010 

0.273 

0 

0.345 

0.010 

0.335 

0 

GEi 

0. 240 

0. 009 

0.231 

0 

0. 307 

0.009 

0.298 

0 

ge 2 

0.267 

0.008 

0. 259 

0 

0. 399 

0. 008 

0.391 

0 

A ]/2 

0. 121 

0. 006 

0. 116 

— 0. 001 

0. 148 

0. 005 

0. 144 

-0. 001 

Ai 

0.247 

0.014 

0.237 

- o . 004 

0.292 

0.012 

0. 283 

-0. 003 

At 

0. 742 

0. 037 

0.733 

- o . 028 

0. 858 

0.116 

0.839 

一 0. 097 


资料 来源: SIPP 。 


根据人口分组分解不平等的方法可以直接应用于人口 
子区域。比如，如果我们想对南部和非南部以广义熵或阿特 
金森族指数加以测量的收人不平等进行比较，我们就可使用 
与上面所讨论的完全相同的方法。 

许多有关不平等分解的经验研究工作都关注人口分组。 
收人或财富由不同的要素构成。比如，收人来源包括工资、 
投资收人、福利支岀、私人汇款和资本收益/损失。财富要素 
包括房产、股票和公募基金、储蓄和支票账户以及退休基金。 
有用的是理解要素间变异和要素内变异如何对总收人或总 
资产净值产生影响。与以子群体进行分解的问题不同，允许 
以收入或财富构成要素进行常规分解的不平等测量相对较 
少。变异系数的平方 c 2 和通常与其等价的测量（比如，方差） 
都允许根据要素进行的分解 （ Cowell , 2000)。为了说明这 
点，我们用一个资产净值的例子，它等于总资产减去总负 
债，是一个总财富的测量。出于简洁性的考虑，我们定义两 
个要素——房产净值和所有其他资产的净值 y a ， 因此 ，乂 




70 


I 评估不平等 


= A +九。现在令 r 、 ^和 Q 为总净值、房产净值和其他资 
产净值的变异系数值。令 A 为要素 A 的比例 < 为要素 A 和 
要素 S 之间的相关系数。 c 的分解 就是： 

c 2 = A z c^j + ( 1— \) 2 c 2 b + 2 A (1 — A ) c a c B( o [4.5] 

既然 G £ (2) = c 2 /2, 我们就能够以 GE <2> 的形式来表达方 
程 4. 5®: 

GE <2) = A 2 GE , A (2) + (1 — A ) 2 GE H2) +2 A (1 — A )(0 • JGEmiGE ^) 

[4. 5'] 

方程 4. 5 和方程 4. 5' 可被应用于资源变量的任意取值 
范围，因此，它适用于包含很大比例负值和零值的资产净值 
变量。我们使用 SIPP 的1991年和2001年的财富数据，结果 
显示在表 4. 3中。由于资产净值包含了负值和零值，变异系 
数与只基于反应变量的正数取值的测量并不直接可比。表 
4.3 的前三行表明，变异系数从 1. 729增加到 8. 841，主要反 
映了非房产净值不平等的增 加：从 2. 518到 14. 383。表 4. 3 
中的要素分解，即每一项在整体中所占的比例，能够揭示一 
些令人感兴趣的趋势一一总的房产净值在1991年时为 
45. 1%,而2001年时下降到了 39. 0%——和两个要素之间 
的相关，这一相关从 0. 352下降到 0. 073。基于这些基本统 
计结果，我们发现，房产净值的加权贡献从 14. 6%下降到 
0.5%，而非房产净值的加权贡献则从 63. 9%上升到 98. 4%。 
方程 4. 5中的第三项源于要素之间的相关，从 21. 5%下降到 

①原文中.方程 4.5' 右边第二项为 （1 一 X ) 2 G £_,„, ， 这是不对的。在此改正为 
(1- X ) ! GE B12 ,„ ——译者注 
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1%。当以百分比的形式来表达时，分解提供了两个分布之 
间的直接比较，并识别出不平等上升的主要来源。 [U] 


表 4. 3含两个要素资产净值的变异系数 分解: SIPP ( 1991年和2001年> 


项 目 

1991 

2001 

变异系数，总的 C 

1.729 

8.841 

变异系数，房产要素的 G 

1.466 

1.630 

变异系数，其他要素的 

2.518 

14. 383 

M 的 比例 : A 

0. 451 

0. 390 

要素相关系数 :l o 

0.352 

0. 037 

总的 :C 2 

2. 991(100%) 

78. 159(100%) 

第1 部分: A 2 ci 

0. 437(14. 6%) 

0. 405(0. 5%) 

第2 部分： (1- A ) 2 4 

1.911(63. 9%) 

76. 491(98. 4%) 

第3部分： 2 A (1 — AkACBjO 

0. 643(21. 5%) 

0. 814(1.0%) 


资料 来源: SIPP 。 


尽管基尼系数并不满足加和可分解性原则，但一些研究 
者将不可加性视为一个优势而非局限。两个不同的分解框 


架是加和的和交互的。在加和分解框架下，组间成分描述两 


个群体之间的平均差异，组内部分则描述剩余的变异。在交 
互分解框架下，组群的特征可被构想为组群的中心位置及其 
分布的形状。不同的中心位置和形状能够导致不同程度的 
组群重叠。设想一个由两个种族群体构成的人口一白人 


和黑人。不但白人一黑人的平均收人差异较大，而且分布的 
形状也不同。在黑人和白人收人分布重叠的区域中，一些黑 
人具有比白人更高的收人。平均收人差异和组群重叠都可 
被看成组间差异。如果对平均收人如何不同及两个群体如 
何重叠感兴趣，那么，基尼系数分解就可被用来获取有关 
信息。 

已有三种方法被提出用于分解基尼系数：（1)图解法 
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(Lambert Aroson , 1993); (2 ) 协方差法 （Lerman & 
Yitzhaki , 1984； Sastry &■ Kelkar , 1994); (3) 成对个体收人 
比较法 （ Dagum , 1997; Mussard , Terraza &- Seyte , 2003)。 
不管何种方法，基尼系数分解都强调组的重叠及隐含在其后 
的实质含义，同时提供对其他不平等测量进行加法分解中所 
没有的额外信息。 

使用相同的来自 SIPP 的2001年的收入数据的白人和 
黑人样本，我们计算出总基尼系数为 0. 4221,它可被分解成 
三个部 分:组 间部分(黑人一白人平均收人差异或两个群体 
之间的总变异)解释了总基尼系数的 10. 6%， 组内部分(每一 
群体内不平等的加权总和)解释了 77. 2%,重叠部分(即这样 
一个事 实:一 些黑人比一些白人具有更高的收人，或者两个 
群体的转移变异)解释了 12. 2%。这些结果与那些使用加和 
分解得到的结果很不同，比如，泰尔系数和变异系数的平方， 
其中，组内不平等在总不平等中占了压倒性的份额(97%— 
98%)。组间不平等只解释了总不平等的一个较小的百分比 
(2%—3%)。 

当发生一些特殊情形时，诸如社会阶级这样的群体会依 
照收人分配而聚集，导致只包含组间和组内成分的基尼系数 
分解 ( Liao , 2006)。社会阶级被定义为这样一群个体 :群体 
内在收人、教育和职业上是同质的，而群体间在收人、教育和 
职业上是异质的。作者用基于模型的聚类方法 （Fraley 
Raftery , 1998) ，依据观测的收人、教育成就和职业声望创建 
了排序好的收入群。因为这些群（阶级)被按照收人分配从 
低到高加以排序，所以跨阶级的成对个体收人比较中并不存 
在转移变异。因此，基尼系数只被分解成两个部分——阶级 
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间部分和阶级内部分——而并不存在交互部分。所以，收人 
分配具有明显社会阶级分界的一个社会将会有较大的阶级 
间部分。扩展基尼系数为处理沿着收人分配所产生的集群 
提供了一个有关如何使用阶级间部分的相对贡献或其修正 
形式，以社会阶级来对某一社会的收人进行分层的清晰解 
释。为了进一步量化不平等的结构，廖福挺进一步发展出结 
构不平等测量，包括结构基尼系数的单独和合计形式以及一 
套结构泰尔测量 ( Liao ， 2009)。 



第 6 节 I 选择适合于一个人口的 
不平等测量 


以上讨论的五个原则(请见附表 A 2) 提供了一套基本标 
准，我们可以用它们测量某一特定研究选取的一个或若干个 
所希望的属性。选择有时依据实质理论层面的理由来作出， 
有时则依据实际应用层面的理由来作出。 

在实质理论层面上,一些研究也许本身就关注所用不平 
等测量的敏感性。强转移原则确保固定距离相同的两名个 
体之间固定量的收人转移之后，出现相同的不平等减少量， 
这里所谓的“距离”针对不同的不平等测量专门进行界定。 
因此，强转移原则强调了以距离形式体现的转移规模和不平 
等测量的变化大小。“基数”属性的概念被用来描述此类与 
大小相关的变化。相对而言，“序数”属性的概念被用来描述 
与序次相关的变化，这是弱转移原则所强调的内容。当序数 
属性成为基本的关注点时，我们在基于它们对收人分布不同 
部分的敏感性而建立的各种测量之间进行选择。比如，阿特 
金森指数族和广义熵指数族通常是等价的，0<0< 1且0 = 
1 一 £。 如果我们主要关注测量的序数属性，我们可以选择阿 
特金森指数或者0在(0, 1) 区间上取值的广义熵，并集中研 
究使用 e 或0的什么值来满足所希望的敏感性。极度敏感性 
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将需要用到0在(0, 1) 区间之外取值的广义熵。如果我们关 
心“基数”属性(即大小），那么就选择广义熵。 

在实际应用层面上，基尼指数是应用最广泛的不平等测 
量。这一流行性的两个主要原因是，其直接得自洛伦兹曲线 
的直观意义以及其(0, 1) 的取值范围。当研究者关心异常值 
和收人和财富等资源的顶端或底端编码时，基尼指数是相对 
稳健的，因为它是中部敏感的。此外，当可能存在负值时，正 
如收人和财富中经常出现的情形，基尼指数可以处理这些数 
据，而阿特金森族和广义熵族中的大多数测量都不行。不 
过，分解基尼系数后的残差部分难以解释。对于关注分解的 
研究而言，可以选择广义熵测量而不是基尼系数。 

若干具有共同构成要素的不平等测量可用来深化对不 
平等现象的理解。在规模为《的同一人口中，个体收人的份 
额可以用个体收人与平均收人的比值来表达，即\ = 
( l / n )( Y 750。使用收人比乂/夕作为四个概要不平等测量(变 
异系数的平方、对数的方差、泰尔指数和基尼系数）的统一框 
架中的共同元素，菲尔鲍考察了全球收人不平等的模式 
( Firebaugh , 1999)。这个统一框架将那些不平等测量表达 
为收人比的函数，衡量该收人比对收人比为 1. 0这一完全公 
平情况的平均偏离（也请见 Atkinson , 1970； Cowell , 2000； 
Shorrocks , 1980)。此框架有助于描述不同的函数如何导致 
那些不平等测量的不同取值。在菲尔鲍的研究中，四个测量 
中的三个提供了支持性证据表明，数百年来，全球收人不平 
等曰益增加的趋势从 I 960 年到1989年趋于稳定。对数的方 
差切 是一个例外，它对收人分布底端的变化更敏感，因为对 
数转换对右尾部要比对左尾部压缩得更厉害，而左尾部实际 
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上呈现出世界收入不平等的下降。这个例子说明，若干具有 
共同元素的不平等测量可用来对所考虑的不平等模式进行 
更深人的考察。 

最后，回到两个分布之间的位置、尺度和形状改变上来， 
各种概要不平等测量如何捕捉这些改变？同时，它们可被区 
分开来吗？首先，根据定义，所有尺度无关的概要不平等测 
量都被设计来将其他形状变化与尺度改变区分开来。第二， 
比较两个人口的各概要测量描述了至少两种分布改变—— 
位置移动和形状变化的组合。为了将位置移动与形状变化 
(对于那些并非尺度无关的测量而言，也包括尺度改变）区分 
开来，我们可以将两个人口视为两个群体。然后，我们可以 
使用可分解的不平等测量来将整体不平等测量分解成组间 
部分和组内部分。组间部分反映位置移动，而组内部分则反 
映形状变化。正如表 4.1 所示，黑人收人和白人收人的整体 
不平等可被分解成 V 、 c 2 和了上的位置改变(组间部分)和形 
状改变(组内部分)。 V (方差）的结果表明，位置移动解释了 
全部分布差异的2%，而尺度和形状变化一共解释了 98%。 
c 2 (变异系数的平方)和 T (泰尔指数）的结果显示，位置移动 
解释了位置和形状变异总和的 2. 5%到 2. 9%，不论是何种 
尺度改变。 
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第7节 | 洛伦兹占优和人口比较 


洛伦兹占优是一个强条件，它确定无疑地表明，收人分 
布 X 比收人分布^更加平等。这一具有说服力的能力是以 
一定的代价换来的 ：对于 一对收人分布，可能任何一方都不 
比对方占优，这被称做“洛伦兹交叉”。许多有关收入不平等 
的研究都致力于对不同国家、美国各州、不同时期以及基于 
种族、性别和年龄的社会群体之间的收入分布进行比较。此 
外，也有研究致力于比较政策对收人不平等的影响，关注一 
项先进的收入转移政策所带来的不平等减少或者一项退化 
的收入转移政策所带来的不平等增加。这一类研究有一个 
共同的关注 :哪种 收入分配更不平等？洛伦兹占优提供了判 
断是否对这个问题给出了可信答案的一个基本标准。 

基于第2章中洛伦兹曲线的定义，每当 LAP) > L y {p) 
对所有的[0, 1] (其中，对于某一个 
也就是 x 和 y 不同)都满足时，我们可以断定，收人分配 x 洛伦 
兹占优于收人分配 y 。 换言之， X 的洛伦兹曲线位于由平等线 
和 y 的洛伦兹曲线所围成的区域内。图 4.1 展示了 X 对 y 的 
洛伦兹占优，其中每个都由五个取值组成 （ x = {70, 80, 80, 
80, 90}， y = {30, 60, 80, 100, 130})。这个例子表明，对于五 
个 P 中的每一个， X 的累积收人份额都大于 y 的累积份额，导 
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致 X 曲线完全位于 y 曲线上方，出现了一种 X 洛伦兹占优于 y 
的情形。根据这一模式， x 无疑要比 y 更加平等。 



图 4.1 洛伦兹占 优:假 设数据 


当在某些 P 处，仁 (/») > L y 0 ) ，而在其他/>处 ， L ( 户） 
< L y { p ) 时®，如图 4. 2中所示，洛伦兹交叉就出现了。当 x = 
{0.4, 99.9, 99.9, 99.9, 99.9} 对应的曲线和 y = {60, 60, 
60, 60, 160} 对应的曲线存在交叉时，就需要另一种标准来 
判断哪种收人分布更平等。因此，洛伦兹占优和交叉概括了 
两个分布之间不平等差异模式的两个宽泛类型。 

对于小规模人口而言，可以很容易地以画图的方式来说 
明洛伦兹占优是否存在于两个分布之间。当人口规模很大 
时，比如，一个国家、州或市的真实收人分布，我们经常选取 
有限量个/>来做图形考察，因为查看所有 > 上的差异是不可 
行的。因此，使用概要不平等测量就变得必要了。这些测量 
必须首先是洛伦兹一致性的。 

①原文此处有错•两种情形都是 LAP) > L,ip-> .这里已将后一处修改为 
LAP) < LAp). ——译者注 
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P 

| —平等线 - 对称基准线二 -- A : 较大的低区域一 B : 较大的上区域 | 

围 4. 2洛伦兹交 叉:假 设数据 

洛伦兹一致性是满足我们上面所讨论五个原则的其中 
三个的一种组合:弱转移原则、尺度无关性原则和人口规模 
无关原则。如果 X 对 y 的洛伦兹支配表明， X 的不平等测量 
不超过 y 的该测量，那么，这个不平等测量就被认为是洛伦 
兹一致性的。但是，如果一个洛伦兹一致性的不平等测量在 
x 中的情形大于在 y 中的情形，我们就不能认为 x 洛伦兹支 
配 y 。 此表述要求所有洛伦兹一致性不平等测量必须全都一 
致地表现为 x 比 y 更平等，这被称做“洛伦兹一致性不平等测 
量之间的全体一致性排序 ” (Shorrocks Slottje , 2002)。考 
虑到洛伦兹一致性不平等测量的数量众多（为广义熵族的0 
和阿特金森族的 e 等参数的宽泛取值所扩展），对所有的洛伦 
兹一致性不平等测量进行考察是不现实的。 

当我们对两个以上的分布进行比较时，全体一致性排序 
条件甚至变得更不切实际。成对比较的数量随着分布的数 
量呈几何级数增长。 [12] 而且我们需要对这些成对比较的每 
一对里的所有洛伦兹一致性不平等测量进行考察。如果我 
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们能够找到些许不平等指数，它们就能以较高的准确性来预 
测洛伦兹占优，那就极具吸引力。 

在寻找解决办法时，我们需要更好地理解，为什么使用 
不同的洛伦兹一致性不平等测量可能给出两个分布的洛伦 
兹占优的不同结果。问题的关键在于，不同的测量对分布的 
不同部位上的收入差异很敏感。比如，基尼系数和泰尔指数 
易受分布中部的影响，而低端1/5份额则易受分布底部的影 
响。相比而言，参数0取较大正数值的广义熵易受分布顶部 
末尾的影响，而参数0取较大负数值的广义熵则易受分布底 
部末尾的影响。集中三个指数，每一个容易受到中部区域、 
底部末尾或顶部末尾的影响，以较高准确性预测全体一致性 
排序是可能的。 

基于使用100个洛伦兹一致性不平等测量对80个国家 
的收人分布所进行的研究 (3160 对比较），索洛克斯和斯罗特 
找出了三个此类不平等测量 （Shorrocks Slottje , 2002)。 
这些指数以分布的不同部位作为对象。 GE 1() ( 0=10处的广 
义熵)以顶部末尾作为 对象; G £_ M ( 0 =— 20处的广义熵）以 
底部末尾作为对象，而中位数以下的份额 L <a5> 则以分布的下 
半部分为对象。由这三个指数所得到的模式与使用100个 
不平等测量所得到模式的99%相一致。少许不平等测量的 
其他组合、具有不同参数 e 的阿特金森族等相同类型的类别 
或者基尼系数和其他测量的组合，都不能以相似的准确性水 
平来预测全体一致性。 

这里，我们看到广义熵的灵活性如何有助于对不平等进 
行比较，以及超出第3章讨论的常规取值范围[一 1， 2] 的极 
端0值的有用性。此外，我们也看到不依赖于单个不平等测 
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量的重要性，而许多研究者仍然仅仅使用基尼系数。寇姆、 
阿特金森及森的经典著述都告诫我们，别仅仅依赖单个不平 
等测量 （ Kolm ， 1969； Atkinson , 1970； Sen , 1973) „ 仅使用 
少数几个如索洛克斯和斯罗特所建议的不平等测量，就能够 
高效且准确地对不同人口的或时间上的不平等进行比较。 

索洛克斯和斯罗特的三个不平等测量也许并不能恰好 
应用于所有的经验研究工作中。但是，分布的中下部区域和 
两个末尾可以作为一个指导原则。我们以 SIPP 收人趋势数 
据，用五个洛伦兹一致性不平等测量对八年中的收入分布 
(28 对比较)进行比 较:索 洛克斯和斯罗特所用到的三个测量 
(底部50%人口的收人份额 L <0 . 5) 、两个针对分布末尾部分的 
广义熵测量 GE — 20 和 G £ w ) 加上泰尔指数 T 和基尼系数 G 。 
表 4. 4给出了针对所考察的这八个年份的五个不平等测量。 
根据第一列为底部50%的人口所拥有的收人份额，将1993年 
排为最平等(最大收人份额），而将1996年排为最不平等(最小 
化收人份额），这与泰尔指数和基尼系数所反映的情况 （1995 
年最平等，1996年最不平等)类似，但并不完全相同。两个针 
对末尾的测量对年份的排序不同，也与关注中下部区域的测 
量不同。当关注底部末尾时，1988年被排序为最不平等， 
1987年则为最平等。当关注顶部末尾时，1996年被排序为 
最不平等，1995年则为最平等。我们对五个不平等测量中 
的每一个都进行了 28对比较。这些结果所呈现的全体一致 
性排序揭示出，1991年时的美国收人分布比1993年时更不 
平等。我们认为，1993年收入分布洛伦兹占优于1991年收 
人分布。但是，对其他年份，则不能得到明确的结论。尽管 
我们用了五个不平等测量，但是这一结论也可以只用索洛克 
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斯和斯罗特提议的三个测量而得到。 


表 4. 4针对中部和两个末尾的不平等测 置:收 入趋势 


年份 

L (0. 5) 

丁 

G 

GE (~2 G } 

GEio 

1985 

0. 23104 

0. 24678 

0. 38580 

1. 34 E +65 

60908 

1987 

0. 22846 

0. 25165 

0. 38986 

2. 03 E +55 

1414 

1988 

0. 23360 

0. 23588 

0. 37962 

1. 73 E +83 

467 

1991 

0. 23316 

0. 23985 

0. 38132 

1. 42 E +70 

5336 

1993 

0. 23464 

0. 23395 

0. 37859 

3. 05 E +70 

1214 

1995 

0. 23441 

0. 23287 

0. 37781 

4. 67 E +63 

428 

1996 

0. 21001 

0. 31931 

0. 42486 

6. 46 E 4-73 

8857682 

2001 

0. 21078 

0. 30725 

0. 42206 

1. 36 E +81 

281443 


资料 来源: SIPP。 
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第8节1小结 


本章将关注点集中在一套广泛使用的不平等测量上，从 
那些与概率分布相联系的测量到那些基于分位数函数和洛 
伦兹曲线的测量，以及从那些由社会福利函数推导得到的测 
量到那些根据信息理论发展出来的测量。概要不平等测量 
的五个原则有助于选取不平等测量来考察一个人口的收入 
分布。洛伦兹占优为使用最少量的一套不平等测量来对人 
口收人分布进行比较提供了指导。这一人口比较的方法首 
先根据一个单一分布得到概要不平等测量，然后在不同人口 
之间比较这些不平等测量。一个替代方法是，首先基于两个 
分布建立一个相对分布，然后考察这一相对分布的概要测量 
指标。这属于下一章的主题。 
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到目前为止，在两个分布的比较中，所采用的方法一直 
是对每一分布的概要统计量进行比较，或者在洛伦兹占优的 
情况下，确定一个分布的整个洛伦兹曲线是否凌驾于另一个 
之上。通过建立意在描述一个分布如何与另一个分布相联 
系的单一相对分布，相对分布方法可以对收入分布进行更全 
面的比较。相对分布方法的一个优势就在于，它可应用于取 
值范围没有限制的那些分布。比如，当有可能出现负值时， 
可以考虑相对分布。此外，相对分布界定了一个无单位的测 
量，使我们可以对想要的测量，如收人、教育年限、身高和体 
重等各种量对应的不同人口的相对分布进行比较，并且可以 
直接根据相对分布推导出若干个不平等测量。另一个关键 
优势是，相对分布方法允许就分布的特定部分，特别是下尾 
部和上尾部分别进行考察。汉考特和莫里斯为社会科学读 
者系统地介绍了相对分布方法 (Handcock Morris , 1999) , 
本章从该来源中汲取了基本素材。对于经验研究者，我们给 
出了可应用于经验数据的公式。本章的目标是，将相对分布 
方法作为对已有概要不平等测量的重要补充来加以介绍。 
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第1节 I 相对秩、相对分布、相对密度 


每当要对两个人口的某个量的分布进行比较时，都可以 
引入相对分布概念。为了继续进行，有必要从两个分布中挑 
选出其中之一，将其称做“比对分布”，另一个则称做“参照分 
布”。比如，既然黑人人口属于少数人口，我们将黑人人口的 
收人与白人人口的收人进行比较时，通常将黑人收人分布作 
为比对，而将白人收人分布作为参照。 

相对分布概念的关键取决于这样一种想法•.为比对人口 
中的每一单个取值^确定其相对于参照分布的秩。这个相 
对秩被定义为参照人口中取值不超过 > 的人口比例。令厂°表 
示参照人口的累积分布函数，那么，这一比例就由 f °( w 给 
出。在这个情形中，确定参照人口中这一 ^值的相对秩的转 
换被称为“等级转换”，且当比对人口的数据被以这一等级转 
换进行转换时，所得数据被称为“相对数据”。在 Stata 中，可 
以用詹恩编写的程序 “ relnmk ” 来进行等级转换并创建相对 
数据 ( Jann ， 2008)。 

为了举例说明，我们考虑黑人中位数收人 (26763 美元） 
在白人收人分布中的相对秩。我们在白人收入分布中找出 
低于该值的累积概率，也就是收人小于26763美元的白人家 
庭户所占的比例，其恰好等于0.2975。因此，应用于黑人中 
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位数收人的等级转换为『=厂°( $ 26763) = 0.2975,表明典 
型的黑人家庭户（处在黑人中位数收人上）在白人收人分布 
中，排列在低于1/3的位置处。 

令 y 表示取自比对分布的一个随机值。“相对分布”被 
定义为这个(随机)值的相对秩的分布。我们用 i ? 表示这一 
随机相对秩，则 i ? = i ^ b )， 即比对分布的一个随机抽取的 
等级转换。直接根据定义，我们知道， R 取0到1之间的值。 
量 R 可被解释成比对人口中的一个随机抽取在参照人口中 
的相对位置，这里用相对位置，我们意指取值不超过该随机 
抽取所对应数值的参照人口比例。 

我们用符号 f 表示比对分布（黑人收人）的累积分布函 
数 ， Q = 表示对应的分位数函数，并且，我们令 y 表示一 
个以 F 为其累积分布函数的随机变量（比如， Y 是一个被抽 
中的黑人收人）。同样， F °、 表示参照人口（白 人冲 
的这些量。作为随机变量， R 有一个累积分布函数，被称做 
“相对累积分布函数”，记为 G ; 另外，还有’一个概率密度函数 
(相对概率密度函数），记为幻也有一个分位数函数，被定义 
为相对累积分布函数的逆，即 a ( r ) = G - 1 ( r ) 。依据定义，相 
对累积分布函数给出了小于或等于某一给定值 r •的概率，因 
此，我们可以将这表达成比对累积分布函数和参照分位数函 
数的 形式： 

G ( r ) = P [ i ? < r ] = P [ F °( y )< r ] 

= P [ Y < Q °( r )] = F ( Q °( r )) 

换言之，相对累积分布函数 G 等价于 F <> Q °( r )， 后者是 
由 ( F ° Q °)( r ) = F ( Q °( r )) 所界定的函数，并被定义成两个 
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函数 F 和 Q ° 的组合。 

相对分布的分位数函数可以通过取相对累积分布函数 
的逆来 得到： 


( F <> Q 0 y ' = ( Q 。）— 1 ° F _1 = F ° °Q 

所以，分位数函数具有以下 形式： QrM = F °( Q ( r ))。 请注 
意，如果我们调换比对和参照分布的位置，那么，相对累积分 
布函数 d 就会变成随机变量及 = F ( Y °) 的累积分布函数，则 
我们 看到： 


G ( r ) = P [灸 < r ]= P [ F ( Y °) < r ] 

= P [ Y 0 < Q ( r )]= F °( Q ( r )) 

这是原初的相对分位数函数，即这一颠倒使得累积分布函数 
等于原初的分位数函数，而分位数函数则变成了原初的累积 
分布函数。 

相对累积分布函数具有简单的解释 ：如同 任一累积分布 
函数一样，它让我们可以确定一个分布集中在何处，此处为 
相对于参照分布的分位数，比对分布的分位数集中在何处。 
它是一个满足 G (0) = 0和 G ( l ) = 1的单调增函数。此函数 
的图形包含在单位正方形 Ur ，.0: 0< r < l , 中， 

并从左下角 （0, 0) 扩展至右上角 （1，1)。 此函数的图形是一 
条斜率为1的直线。因此，对于变量 r •的所有取值，都有 
G ( r ) = r 。 这对应着两个分布相同的情形。 

其他极端情形也有简便的解释。如果相对累积分布函 
数对于小于某一特定值 〆 的 r 值取值为0,然后在，处出现 
一个大小为1的跳跃，而对于大于，的 r 值取值为1，那么我 
们知道，比对人口中的所有个体都具有与参照人口的第 〆 分 
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位数相同的取值。更一般而言，相对累积分布函数可以是集 
中在单位区间 [0, 1] 上的任意离散概率分布，在此情形下，其 
图形看上去似乎是平的，除了在[0, 1] 的点 n ， n ， …， n 处 
出现了大小为 h ， p 2 ，…，九的々个跳跃之外。这种情形与 
比对分布集中在参照分布的比例为 P '， P ” …，九的第々分 
位数 cy ( n )， …， QP (^) 上的情形相对应。正如在导论中所 
指岀的，相对分布是无单位的。知道相对分布并未揭示出与 
比对或参照人口的分位数真实数值有关的信息。在允许我 
们确定一个分布中的哪个分位数与另一个分布的给定分位 
数相对应这一意义上，相对分布仅仅提供了两个分布之间的 
一个映射。 

回到上面的例子，我们可以取 r 为 0. 2975,因此，参照 
(白人）收人分布的第「分位数为26763美元。另一方面， 
26763美元是比对(黑人)收人分布的中位数，因此，我们可以 
将以上等级转换观测解释成表达了特定取值 0. 2975处的相 
对累积分布 函数： ‘ 

G (0. 2975) = F ( $ 26763) = y 

可以对位于0到1之间的每个 r 值进行类似的计算，得到一 
个有关这两个收人分布之间关系的综合概括。 

基于针对两个人口而收集得到的数据，我们用一种简单 
的两步骤方式来完成刚才所说明的计算，以得到经验相对累 
积分布函数。首先，我们确定参照分布的（经验）分位数函 
数。令参照数据为 y ;， …， y ：， 将这些值按从小到大的顺序 
进行排列，得到序次统计量…， yL 。 我们通过取得 
Q °( k /(??+!)) = y a) 来界定形式 V (? j + 1) 的 r 值处的经验分 
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位数函数。对于连续取值上的 r ， 如 A / G +1) 和 a + l)/(n 
+ 1)，我们以线性内插来定义 d ( r )， 即 

Ao f \ r —(々/(7 Z +1)) 0 ,((々+ l )/’（ w +1)) — r o 

Q (r>= l/(n+l) ^ + - ITU+I) - 知 

接下来，我们利用比对样本％，…，％来完成经验相对 
累积分布函数的计算。对于任一给定的 r •值，我们 取得： 

Q (r) = 的数目 


比对样本 V ，…，： V ,,中的数值小于或等于 d °( r ) 的比例。 

其他有关两个分布之间关系的定性表述可以根据相对 
累积分布函数来得到。完全落人对角线下方的相对累积分 
布函数的图形，即对于所有的 r ， 有 G ( r )< r 与对于 r 的所 
有取值，有 Q °( r ) < Q ( r ) 这一条件相对应，意味着参照分布 
的分位数都没有超过相应的比对分布的分位数。比如，参照 
人口中的第25百分位数小于或等于比对人口中的第25百 
分位数，参照人口中的第50百分位数小于或等于比对人口 
中的第50百分位数，参照人口中的第75百分位数小于或等 
于比对人口中的第75百分位数，等等。极深刻的意义在于， 
比对人口比参照人口更富裕。相反，完全处在对角线上方的 
相对累积分布函数的图形，即对于所有的 r ， 有 G ( r ) > t •，则 
其与对于 r 的所有取值，有 d °( r ) > Q ( r ) 这一条件相对应， 
意味着比对人口的分位数都没有超过相应的参照分布的分 
位数。如果相对累积分布函数呈现含 G ( l /2) = 1/2的倒 S 
形.这就对应着如此情形 ：那些 处在比对人口更低分位数中 
的人，比那些处在参照人口对应分位数中的人更穷，而那些 
处在比对人口更高分位数中的人，比那些处在参照人口对应 
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累积分布的概要统计量可用来对比对分布和参照分布 
进行比较。比如，相对分布的均值， 

1 » 

E ( R ) = | rg ( r)dr = £[ F °( Y )]= J F ( y ) f ( y)dy 

r= 0 y =~ 

给出了取值落在从比对分布中随机抽取的数值之下的参照 
人口的期望比例上。比如，对于各对相同的分布，这个值是 
1/2,因此，一个极其自然的做法就是将相对分布的均值与 
1/2 进行比较。当 E ( R ) < 1/2 时，平均而言，不到一半的参 
照人口将具有落在从比对分布中随机抽取的数值之下的一 
个取值，因此，大多数人通常都将具有一个更大的取值 。粗 
略地讲，我们可以认为，比对人口具有比参照人口更低的取 
值。 当£0?)〉1/2 时,我们可以得到相反的结论。 

同样，相对分布的中位数 

G(l/2) = F«ya/2)) = P[Y< QP(l/2)] 

由取值落在参照人口中位数之下的比对人口的比例给出。因 
此，条件 GQ /2) < 1/2显示了参照人口将具有比比对人口更 
小取值的倾向。如果 G ( l /2) > 1/2,我们会得到相反的 
结论。 




I 评估不平等 


第2节 I 相对比例和相对密度 


相对比例也容易解释，尽管它描述了比对分布中各分位 
数上的个体，以参照分布的分位数来看集中在何处。对于任 
意概率密度函数，曲线下方的面积都是1，某点上的函数也就 
是该处相对分布的导数。两个值 n 和 r 2 之间曲线下的面积 
为取值位于参照人口的第 n 和第 r 2 分位数之间的比对人口 
的 比例。 

就相对累积分布函数的表达式 G ( r ) = F ( Q °( r )) 对 r 
求微分，得到一个相对密度函数的表 达式： 


g ( r ) = 




[5.1] 


假如数据是从两个总体中抽样得 到的: …， YL 来自 
参照总体，而 K ， …， y ,, 来自对比总体，那么，相对密度估计 
的最直接方法建立在相对比例的基础之上。我们选取在其 
上计算分位数的一些值。在接下来的讨论中，我们用十分位 
数。我们用参照数据来计算参照样本的十分位数0°(以10)。 
然后计算位于每个1/10 J , = [ d ° G :/10)，0° G +1/10)) 中的 
比对样本的比例 A 。 在区间 J , 上取值的分段常数函数为 
A ，可被看做相对密度的一个简单估计量。假定比对分布和 
参照分布相同，那么，我们预计此函数看上去会很像[0, 1] 上 
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的均匀密度，也就是说,我们期望该值在整个区间上的取值 
接近于1。对这一基准情形的偏离也易于解释。 

估计相对密度的更复杂的方法也很容易得到。实际上， 
根据数据来估计相对密度 g ( r ) ，要比估计相对累积分布函数 
G 精巧得多，因为，正如方程 5. 1所反映的，确定某个取值 r 上 
的概率密度函数涉及在参照分布分位数0° ( r ) 上，以数据来估 
计参照分布和比对分布两者的概率密度函数。因此，为了理 
解所涉及的问题，只需要考虑基于一个样本来估计一个分布 
的概率密度函数的问题。下面是对核密度估计的一个简单讨 
论，旨在让那些不熟悉密度估计的读者认识一些主要问题。 

我们现在考虑一个从概率密度函数为/的分布 F 得到 
的样本 X , ，…， X „。 既然 /( x ) 是 F 在 x 上的导数，我们可 
以将其 写为： 

f ( x )= F '( x ) = lim ㈣ F(x + A) - F(x ~ A) 

并且，我们可以通过取一^很小的△餅求解下式来估计 / U ) : 

s r \ F ( x + A ) — F(x — A ) rr on 

/ ( 工 ）=-^7- L5. 2J 


这里， P (X) 表示基于样本的经验概率密度函数，也就是 


Fix ) 


的数目 

n 


方程 5. 2中的分子就是落在区间 [ x — A , : r + A ] 上的数 
据点 X ,的数目，密度估计值就是: t 附近每个单位长度上的 
数据点所占的比例。 

改进后的密度估计有两个重要的方面。第一，刚才介绍 
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的简单密度估计量可以表达成以下 形式: 



这里，^是以如下形式定义的 函数： 

fl /2 (I u |<1) 

lo (I u |>1) 

即区间[一 1， 1] 上的均匀概率密度函数。这样的密度估计量 
被称为“具有核纟的核密度估计量”。在这种情况下，核是长 
方形的。但是，它现在被理解成，如果我们以一个关于0对 
称的修匀概率密度函数来替换这个函数，可以获取相当大的 
效率。第二，常数△被定义为估计量的“带宽”， A 的选择被 
证明是很关键的。选择的值太小，会得到一个偏误低但方差 
大的估计量，而选择的值太大，则会得到方差小但偏误高的 
估计量。许多统计研究一直关注选择一个最优带宽的问题， 
它将同时使得偏误和方差两者最小化(詹恩编写的 Stata 程 
序 “ reldist ” 提供了许多核密度方法来估计相对概率密度函 
数)。对各种方法的讨论超出了本书的范围。不过，对于读 
者而言，重要的是要明白，相对密度估计的方法论大大依赖 
于这些基本观念。 

基于应用于黑人收人和白人收入这一相同例子的 Stata 
编码，我们用相对比例来对相对分布方法举例说明。首先， 
我们对黑人和白人内部的收人数据加以排序。十分位数将 
白人人口区分成10个等规模的段(见表 5.1 的前两列）。比 
如，白人中最贫穷的10%拥有不到12580美元的收人，而最 
富裕的10%至少拥有103098美元的收入。有10个十分位 
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数 段:最 小值到12580美元、12580美元到19828美元，直至 
103098美元到白人收人的最大值。白人中的10%落在每一 
个十分位数段内。然后，我们确定黑人在由白人的十分位数 
所界定的各段内的各个比例(见第三列）。 

白人的十分位数与黑人收入分布中完全不同的十分位数 
相对 应:白 人的第一个十分位数对应着黑人的 0. 234分位数， 
而白人的第九个十分位数则对应着黑人的 0. 968分位数。这 
意味着，最贫穷的 23. 4%的黑人拥有不到12580美元的收人， 
而 3. 1%的黑人 (1-0. 969) 至少拥有103098美元的收人。现 
在，我们准备计算白人十分位数段上的各个比例比。 

我们根据他们各自的各分位数段，得到白人的比例和黑 
人的比例，如第四列和第五列所示。然后，我们取一个黑人比 
例与对应的白人比例的比值得到相对比例(见第六列）。相对 
比例从第一段上的 2. 341下降到最高段上的 0. 311。 

表 S.1 黑人一白人的相对 比例: SIPP(2001 年） 


白人收人的 
十分位数 (3V) 

累积比例 

比 

例 

相对比例 

白人 

黑人 

白人 

黑人 

黑人相对于白人 

最小值 

0. 0 

0. 000 

—— 

—— 

—— 

12580 

0. 1 

0.234 

0.1 

0. 234 

2.341 

19828 

0. 2 

0. 384 

0. 1 

0. 150 

1.498 

26952 

a 3 

0. 504 

0. 1 

0. 120 

1. 204 

34199 

0.4 

0. 601 

0. 1 

0. 097 

0. 969 

42165 

0.5 

0. 697 

0. 1 

0.096 

0.958 

51720 

0.6 

0. 780 

0. 1 

0. 083 

0.831 

62983 

0.7 

0.855 

(XI 

0 . 075 

0. 746 

78067 

0.8 

0.914 

0. 1 

0. 059 

0. 590 

103098 

0.9 

0. 969 

0. 1 

0.055 

0.549 

最大值 

1.0 

1.000 

0. 1 

0.031 

0.311 


资料 来源: SIPP 。 
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图 5. 2 U ) 展示了白人收人和黑人收人的密度函数，明 
显具有不同的中心位置和形状。图 5. 2( b ) 画岀了对应十分 
位数段上的黑人对白人的相对比例。正如上面所阐明的， 
我们将绘出的曲线视为对相对密度的一个近似，同时，我 
们看到，这一相对密度曲线是下斜的， 0.4 下方出现了 
比上方更加陡峭的下降。 



( b ) 

图 S .2 黑人一白人相对收入 分布： 

黑人一 白人收入密度函数和 黑人一 白人相对比例 
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在第2章中，我们介绍了有关分布的位置、尺度和形状 
的概念。以参照分布为基准，比对分布可被视为是通过将一 
些操作应用于参照分布而得到的——首先应用位置移动，然 
后应用尺度改变，最后是形状变化。对相对分布的研究相当 
于将参照分布的分位数作为首选的测量单位。相对密度分 
解利用这一思路来描述这三种操作的效应。 

在我们关于黑人一白人收人差异的例子中，通过以白人 
收入分布为参照，从而使调整位置的白人收入成为比对分 
布，纯粹的位置移动能够以相对密度的形式描述。在保持形 
状不变的情况下，这一位置调整以同一数量减少每个白人家 
庭户的收人，以得到相同的分布中心。除纯粹的位置移动之 
外，两个分布在形状上不同，这通过将黑人收人与位置调整 
的白人收人加以比较来反映。我们可以进一步将形状变化 
分解到随形状变化而来的尺度改变中。 

我们以一个简单的两成分分解为例来说明，这个例子描 
述了将一个参照先做位置移动，然后做尺度或形状改变而得 
到的比对分布。首先，我们创建了一个密度函数为 / M •和累 
积分布函数为的调整位置的参照随机变量 y ° h 。令@和 
A 为 y 和 y °的均值，因此，调整均值的参照变量为= y 0 
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+ (~— g )， 而两个分布的形状仍然相同。我们可以采用代 
数形式将比对分布的相对密度(方程 5. 1) 表 达为： 


= f(Q°(r)) = r-(Q°(r)) f(Q°(r)) 

g /°(Q°(r)) /°(Q°(r)) / 0 L (Q°(r)) 

[5.3] 


总之，整体相对密度为位置移动的相对密度乘以一个表 
达式，该表达式描述了在参照分布已被移动位置之后，使两 
个分布相匹配所需的额外的形状改变。请注意，所有的相对 
密度都以参照分布的同一个第 r 分位数 Q °( r ) 为参照。 

对于经验数据，: y % …，4来自参照总体，而: yi ， …，： y „ 
来自对比总体，方程 5.2 中形式的分解可以用以上所介绍的 
相对比例建构来进行。方程 5. 2中的每一项都可以作为参照 
分布的每一个估计的十分位数段[£/10, i +1/10] 上的某一常 
数来进行估计，而 H /10, i + 1/10] 上 r 的相对密度表达式为 


两个比 的积: 



[5. 3，] 


我们为调整位置的参照数据引人符号 i + ( 夕一 
文），其中 i = l ， …， m ， 因此，夕 和/表 示样本均值。第一 
个比值 项为： 


J , 中3^的比例 
中/的比例 


iox _/,^/ L 的数目 


其中， J , = [ cyci / io ), (^( g '+ d / io ))。 这一比值项为调整 
位置的参照分布对于未调整参照分布的相对密度的一个估 
计值。第二个比 值为： 


l 中 y 的比例 
J , 中 ： yf 的比例 
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沿用我们有关黑人一白人收人的例子，我们使用均值调 
整来得到调整位置的白人收人分布。黑人的平均收人为 
18457美元，低于白人的平均收入。我们将每个黑人的收人 
减去18457美元来构建调整位置的白人收人，它与黑人收人 
分布具有相同的均值，但保留了原始白人收人分布的尺度和 
形状。调整位置的白人收人对于原始白人收入的相对比例， 
以与整体相对比例同样的方式来取得。请注意，黑人收人对 
于调整位置的白人收人的相对比例，以原始未调整白人分布 
的分位数为参照。我们在表 5. 2中对此做了示例说明。第一 
列给出了原始的白人十分位数(与表 5. 1第一列相同）。第二 
列显示，与原始白人收人十分位数相对应的调整位置的白人 
收人的分位数段不再是等规模的。原始白人收入十分位数 
上的黑人收人密度的结果与表 5. 1中的相同。黑人对调整 
位置的白人的相对比例显示在该表的最后一列中。 


表 S .2 黑人对于调整位置的白人的相对 比例: SIPP (2001 年) 


白人收人的 
十分位数 (>) 

累积比例 

比例 

相对比例 

调整位置 
的白人 

黑人 

调整位置 
的白人 

黑人 

黑人相对于调整 
位置的白人 

最小值 

0. 000 

0. 000 

—— 

—- 

—— 

12580 

0. 358 

0.234 

0. 358 

0. 234 

0.654 

19828 

0.451 

0. 384 

0. 093 

0. 150 

1. 604 

26952 

0.535 

0. 504 

0. 084 

0. 120 

1. 434 

34199 

0. 610 

0. 601 

0.075 

0.097 

1. 294 

42165 

0. 680 

0. 697 

0. 070 

0.096 

1.366 

51720 

0. 751 

0. 780 

0. 071 

0. 083 

1. 172 

62983 

0.818 

0. 855 

0. 067 

0. 075 

1. 115 

78067 

0.881 

0. 914 

0. 063 

0.059 

0. 944 

103098 

0. 935 

0. 969 

0. 054 

0. 055 

1.013 

最大值 

1.000 

1.000 

0. 065 

0. 031 

0. 479 


资料 来源: SIPP。 
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图 5. 3( a ) 呈现了调整位置的白人收人对于白人收人的 
相对密度，它刻画了位置移动。它表明，调整位置的白人在 
低端处存在一个高的集中。我们将此解释为，黑人一白人位 
置差异源于在收人分布的低端尾部不成比例地放置了更多 
的黑人。图 5. 3( b ) 呈现了黑人收人对于调整位置的白人收 
人的相对密度，它刻画了形状改变。形状改变的相对比例在 
两端尾部更低，而在第二个到第五个十分位数段上更高。这 



(b) 

图 5. 3分解相对 分布: SIPP (2001 年）的黑人和白人收入 
(位置移动的相对比例和形状改变的相对比例） 





第 5 章相对分布方法 


103 


揭示出，黑人一白人尺度或形状改变促成了将更多的黑人划 
分成中低收人者。 

根据这两个相对比例，我们准备对整体相对比例进行分 
解，如表 5. 3所示。在每一分位数段上，整体比例为调整位 
置的白人收人对于原始白人收人的相对比例和黑人收人对 
于调整位置的白人收人的相对比例的乘积。 

同样的思路自然地扩展至允许对整体相对密度进行三成 
分分解。我们可以顺利地将形状改变所对应的成分分解成尺 
度改变和非尺度的形状改变。令 /° li; 为调整位置和尺度的参 
照分布的概率密度函数。方程 5. 1从而可被扩展成如下 形式： 


= f ( Q °( r )) = r ( Q °( r )) 严 ( Q °( r )) f ( Q 0 ( r )} 

g f ( Q 0 ( r )) f L ( Q °( r )) / 0, - s ( Q °( r )) 

[5.4] 


表 S .3 整体相对比例 ( RP ) 分解为位置和 
形状改变的顺序 分解: SIPP (2001 年> 


1 

2 

3 

4 

5 

6 

原始白人分布 
的累积比例 

原始白人收人的 
十分位数 

整体 RP 

位置移动形状改变 （4) X (5) 

0 

最小值 

2.341 

3. 579 

0. 654 

2. 341 

0.1 

12580 

1. 498 

0. 934 

1. 604 

1.498 

0.2 

19828 

1.204 

0. 840 

1.434 

1.205 

0. 3 

26952 

0. 969 

0. 749 

1.294 

0. 969 

0.4 

34199 

0. 958 

0. 701 

1.366 

0. 958 

0.5 

42165 

0. 831 

0. 710 

1. 172 

0.832 

’0.6 

51720 

0. 746 

0. 669 

1. 115 

0. 746 

0. 7 

62983 

0. 590 

0. 625 

0. 944 

0. 590 

0.8 

78067 

0. 549 

0. 542 

1.013 

0. 549 

0. 9 

103098 

0. 311 

0. 650 

0. 479 

0. 311 

1. 0 

最大值 

— 

— 

— 

— 


资料 来源: SIPP 。 
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总之，整体相对比例为位置移动的相对密度、一个描述 
尺度改变的密度比值项和一个对位置和尺度效应已被解释 
之后所遗留的效应进行解释的密度比值项。由于各项是被 
接连纳人的，其中每一个新的项就针对分布的额外修正加以 
解释，所以，此分解属于顺序分解。所得到的分解关键取决 
于各项被纳入的次序。比如，如果我们先对尺度进行调整， 
然后对位置进行调整，结果将会是完全不同的分解。此外， 
应再次指出，每一密度项都以原始参照分布的第 r 分位数为 
其参数，只有分解式中的第一项比值才是相对密度，因为在 
该项中，密度的参数为分母概率密度函数的分位数。 

对于之前的分解(方程 5. 3') ，我们可以使用数据来将相 
对比例分解成各相对比例项的乘积，其中，每一项都源于一 
个特定类型的 修正： 



在三成分分解中，除了我们现有涉及位置以及尺度调整 
的各项之外，我们还需要计算计数的比值，正如我们在两成 
分分解中所做的那样。尽管方程 5. 4' 右边的最后两项由表 
5.2 中说明的那样得到，但两项分解中的方程 5. 4' 处出现的 
各项可像之前那样计算得到。方程 5. 4' 第二项分子中的计 
数为调整位置与尺度的白人收入。对于这些计数，我们将每 
一个白人的收人乘以黑人标准差对于白人标准差的比值，然 
后调整平均差。比如，令\和 s ° v 表示比对和参照数据的标 
准差，那么，调整位置与尺度的参照数据 变成： 

y, ls = -^y°, +(y-y°) 

s y 
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那么，第二个相对比例项具有以下 形式： 

J, 中:的比例 
J, 中的比例 

继续关于黑人一白人收人的例子，表 5. 4给出了顺序三 
成分分解,首先位置移动(第四列），然后尺度改变(第四列）， 
最后非尺度的形状改变（第六列）。图 5. 4提供了位置移动 
之后的尺度改变和形状改变的图形样式。图 5.4 U ) 显示，黑 
人收入的尺度比白人收人的更小，集中在第二个十分位数到 
第七个十分位数这一段上。图 5. 4( b ) 显示 ，一 旦尺度差异被 
排除，黑人收人就比白人收人更加两极化，因为更多的黑人 
处在调整位置和尺度的分布的两端。 


表 5. 4整体相对比例 ( RP ) 分解为位置、尺度和 
剩余形状改变的顺序 分解: SIPP (2001 年） 


1 

2 

3 

4 

5 

5 

6 

原始白人分布原始白人收人 
的累积比例的十分位数 

整体 RP 位置移动尺度改变 

剩余形 （4) X (5) 
状改变 X (6) 

. 0.0 

最小值 

2.341 

3. 579 

0. 534 

1.226 

2.341 

0. 1 

12580 

1.498 

0. 934 

1. 665 

0.964 

1.498 

0.2 

19828 

1.204 

0. 840 

1. 677 

0. 855 

1. 204 

0.3 

26952 

0. 969 

0. 749 

1. 565 

0. 827 

0.969 

0.4 

34199 

0. 958 

0.701 

1. 496 

0.913 

0. 958 

0.5 

42165 

0.831 

0. 710 

1.341 

0. 874 

0. 831 

0. 6 

51720 

0. 746 

0.669 

1. 107 

1.007 

0.746 

0.7 

62983 

0.590 

0. 625 

0. 847 

1. 115 

0.590 

0.8 

78067 

0. 549 

0. 542 

0. 681 

1.488 

0.549 

0.9 

103098 

0.311 

0. 650 

0.483 

0.991 

0.311 

1.0 

最大值 

— 

- 

— 

— 

一 


资料 来源: SIPP 。 
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0 r I I I I_I I I I I t i 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 

r 

[^调整位置和尺度的白人 调整位置的白人 I 

(a) 


0 1 * I I I I • I I I I i m 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 

r 

黑人 --- 调整位置和尺度的白人 I 

(b) 

图 5. 4整体相对分布分解为位置、尺度和剩余形状改变的顺序 分解： 

黑人和白人收入(尺度改变的相对比例和非尺度的形状改变的相对比例） 

尽管密度比和分解给我们提供了比较两个分布和理解 
这些分布之间差异来源的工具，但是有两个特殊的概要测量 
可用来简洁地刻画差异的特征。下一节，我们将继续讨论相 
对熵和中位相对极化 ( MRP ) 。 




培汆苌 e 
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第4节 | 相对分布的概要测量 


概括相对密度的测量将有助于对我们的许多研究问题 
提供间接的答案。比如，黑人和白人收入分布之间的分化程 
度有多大？当与参照分布相比较时，比对分布是如何被两极 
化的？相对熵和 MRP 可被用来回答这些问题。 

相对熵 

在第3章中，我们介绍了分配不平等的各种测量，比如 
泰尔指数和广义熵测量。这些量测量了单一分布的内在不 
平等程度。替代方法之一是测量相对于某个参照分布的不 
平等。为此，我们引人“相对熵”的概念。给定具有正相对概 
率密度函数 g 的比对和参照分布，相对熵被定 义为： 

[ gir ) log ( g ( r))dr [5.5] 

J r=0 

此表达式明显与熵的定义相似。但是，将此表达式视为 
熵的一个测量却有误导性。首先，考虑到离散情况下熵的定 
义，我们预计方程 5. 5中有一个负号，因此，这个量测量了与 
熵相反的内容。即使我们修正方程 5. 5中的符号，但当我们 
以离散分布来逼近连续分布时，将熵的概念扩展至连续分布 
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的情形仍然存在一些关键的技术问题，因为当区间大小减少 
至0时，我们倾向于执行的求极限的操作导致忽略了趋于无 
穷的一项。 

理解方程 5. 5的更好的方法是使用一个分布和另一个 
分布的库尔贝克-莱伯勒距离概念，随后对其进行介绍。设 
想我们有一个观测样 本1 ，…，八，且我们想检验的零假设 
为该样本取自一个概率密度函数为的分布 P ，针对的备择 
假设为该样本取自一个概率密度函数为<?的分布0。尼曼- 
皮尔逊定理告诉我们，任一给定水平 a 上最有效力的检验为 
拒绝零假设的似然比检验 （Neyman Pearson , 1933)，前提 
是对数似然值 




A- ( 綠 i 


超过取决于 a 的某一常数 c 。。 对数似然值为独立同分布随 
机变量的和，因此，若假定备择假设为真，当样本规模趋于 
无穷大时，我们可以用大数定律 得到： 


( 溃 )] = 丨 log (Mh u)dr 

X=—^< 

当9不同于时，我们预计似然比通常取接近1的值。 
因此，该值超过1的程度就由最后的积分来进行测量，该积 
分被定义为 P 距 Q 的库尔贝克-莱伯勒距离，记为 D ( P ， Q ) 
(Kullback Leibler , 1951 ； Soofi , 1994)。 我们可以证明， 
该量是非负的，当且仅当两个分布重合时才取零值。我们将 
库尔贝克-莱伯勒距离用于测量 P 距 Q 有多远。不过，将这 
理解为“距离”时要谨慎，因为，如 D ( P ； Q ) = D ( Q ； P ) 通常 
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并非 如此。 

回到相对熵(方程 5. 5)，我们用方程 5. 1将其重新写成 
如下 形式： 


f /( Qo ( r )) , ( nQoM ) 

J / o ( a ( r )) g V o(Qb ( r )) 

r=0 


dr 


改变一下变量 y =^ Qo ( r ), 得到 r = F 0 ( y ) 和士 = f 0 ( y ) dy o 
此表达式具有如下 形式： 


丄您 log ( 愁) /t)Wy = D ( F ° ;F) C5 - 5，] 

即 h 距 F 的库尔贝克-莱伯勒距离。 

以十分位数段上相对比例的形式来表达相对熵就非常 
直接明了。我们可将方程 5. 5' 写为 

D(F ： F 0 )=g(^)log(^)p ： 

继续我们有关黑人和白人收人的例子，我们用方程 5. 
计算出2001年的整体相对熵为 0. 137。 

相对熵有一个重大缺陷，这可以追溯到会受对熵的属 
性进行重新排序影响的不变性。如果一个分布是通过打乱 
概率质量而由另一分布得到的，两个不同的相对分布将具 
有相同的熵。更精确地讲，如果 g 是相对密度，且对于某一 
保测函数[ 13] 九:[0, 1] — [0, 1], 有 g ( r ) = g (/ t ( r ))， 那么， 
g 和 g 具有相同的相对熵。因此，如果考虑 g 在每一个十分 
位数段上为常数的情形，若 g 在第十分位数段 [(z — 1)/10, 
i /10) 上取值，其中 z = 1, •••, 10,且 g 也取相同的值，但 
两者处在不同的十分位数段上，那么，各十分位数段被重新 
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排序， g 和 g 的相对熵仍然相同。因此，相对密度中峰和谷 
的实际位置，对其相对熵并没有影响。 

相对极化 

如果一个分布存在向尾部而不是中部集中的倾向，那 
么，它就被说成是极化的。“极化”是刻画一个分布的尺度或 
形状的另一种方式，而且这种刻画可以是相比而言的。我们 
经常问，一个比对分布是否比参照分布伸展得更宽(更窄)或 
具有更重(更轻）的尾部？比如，我们想知道，当与白人收人 
分布进行比较时，黑人收人分布是否更不伸展且集中在下半 
部(即朝该分布的中位数集中）？相对熵并不能提供这一问 
题的答案。 

MRP 指数测量的是比对分布相对参照分布更为极化的 
程度。它被以比对分布相对于调整位置的参照分布的相对 
分布形式来定义，这里的参照分布属于调整中位数的分布， 
因此，两个分布的中位数相同（中位数调整优于均值调整，由 
于均值在偏态分布情况下的缺陷）。我们用符号.表示一 
个随机变量，它的分布是比对分布和参照分布之间的相对分 
布。此随机变量可被理解成调整位置的参照分布中，等于或 
小于某一个从比对分布中随机抽取的值的人口所占的比例。 
然后，我们以绝对值来测量 i?。,. 平均偏离1/2多远，并通过下 
式将相对极化定义成该均值的一个线性 变换： 

MRP(F； F°) = 4£[| R ol - 1/2 \ ]- 1 [5. 6] 

我们选择此线性变换（期望偏差的4倍减1)，得到一个 
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取值在一1到1之间的指数。考虑一些更重要的特例会增加 
这一指数的可解释性。如果两个分布在经过位置调整后重 
叠在一起，那么，正如前面指出的，尺。!_在区间[0, 1] 上具有均 
匀分布.且在这种情况下 ， £[l i?0L - 1/2 I ] = 1/4,这使得 
MRP 指数等于0。不存在相对极化的最极端情形为，比对人 
口在参照人口的中位数上集中。在这种情况下，是一个 
取值为1/2的常数随机变量，因此， E [| R 0 L ~ l /2 I ] = 0,这 
使得 MRP 等于一 1。最后，相对极化的最极端情形为，一半 
的比对人口具有与参照人口的最小值相等的取值，而另一半 
则具有与参照人口的最大值相等的取值。在这种情况下， 

以1/2概率取0值，1/2概率取1值，使得 I .一 1/2 I 成为一 
个等于1/2的常数随机变量。这时， E [\ R 0 L - 1/2 |] = 1/2, 
那么我们看到， MRP 的取值为1。 

一 个大于0的 MRP 表明，比较组比参照组更极化，而一 
个小于0的 MRP 则表明，比较组比参照组更不极化。因此， 
MRP 提供了与被比较分布的上半部、下半部上差值的方向 
和数量有关的信息。 

MRP 指数的取值可被理解成人口从更中心位置到更不 
中心位置的一个比例改变。比如，黑人一白人收人比较的 
MRP 为一 0. 2299,这意味着，与白人家庭户比起来， 22. 99% 
的黑人家庭户朝中位数集中。这似乎反映出，白人的收人尺 
度比黑人的收人尺度更宽。 

基于数据来计算 MRP 可描述如下。令和 m 1 分别表 
示比对和参照分布的样本中位数。对于/ = 1，…，《，调整 
中位数的参照数据为 5 C =_ v :' + (w — w °)。 对于/= 1， …， w . 
我们使用经验等级转换来将这些值转化成相对调整中位数 




112 


I 评估 不平等 


的数据 匕 = F °{ y ,), 即取值小于或 等于乂 的调整中位数的 
参照数据点的比例，得到样本 MRP 为： 

MRP=-(S I n - V 2 |)-1 [5.6'] 

n frf 

MRP 指数具有其他重要性质。具体而言，它是反对称 
的，意味着调换比对和参照将得到一个大小相同而符号相反 
的指数。为了理解这点，请参看图 5. 5,它针对具有相同中位 
数的比对和参照分布的模拟选择，画出了一个 G ( r ) 的示例。 
中位数相同的事实确保该函数的图形通过单位正方形的中心 
点(1/2, 1/2)。如果我们令 r 为区间 [0, 1] 服从均匀分布的 
随机变量， 那么， Q ( r ) 的分布就是从比对分布中抽样得到的 
随机变量 Y 的分布，同时 ， F °( Q ( r )) 具有随机变量 i ? 的分 
布。因此，我们可以 写为： 

1 

E I R -1/2 | = | | F °( Q ( r ))- 1/2 | dr 

r=0 

此积分在图中被表示成以竖条填充的面积。但是，如果 
我们将参照和比对分布对调，正如前面看到的，我们将得到 
一个随机变量及，其分布是新的相对分布，且其累积分布函 
数为 P 的累积分布函数的逆。此外 ， E | 及一 1/2 | 为以横条 
填充的面积。显然，这两块面积之和为1/2。因此，我们可以 
写为： 


E | R - l /2 \ + E I 犮一 1/2 1= 1/2 


另外， 


(4£ I R - l /2 |- 1) + (4 E | R - l/Z |-1) = 4(1/2)-2 =0 
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也就是说，这两个 MRP 指数的和为0,换言之， MRP ( F ; F °) 
=- MRP ( F 0 ; F )。 



图 s . s 中位数相对极化对称性的示例说明 

MRP 的一个可能缺陷仅仅在于，它未揭示分布的哪一 
个尾部是极化的来源。为了消除这点， MRP 可被分解成下 
部和上部极化。这要求我们针对调整位置的相对分布的下 
半部和上半部分别进行计算。在图 5.5 中，这相当于用左下 
角正方形中以横条填充的部分计算下部相对极化 ( LRP )， 并 
用右上角正方形中的部分计算上部相对极化 ( URP )。 那么， 
MRP 可被加和分解成 LRP 和 URP ： 

MRP ( F ； F °) = - yLRPCF ； F °)++ URP ( F ; F °) 

[5.7] 

就数据而言，将调整中位数的相对数据以升序排序之 
后 • LRP 和 UPR 可被计算 如下： 

LRP ( F ； F °) = -( V ( l /2- r,))-l 
” 7~1 
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URP ( F ； F °) = - ( 2 ( r ,-1/2) )-1 [5.7’] 

n « = «/2-l 

我们用 “ reldist ”( Jann ，2008) 来得到这些极化测量。在 
比较2001年的黑人收人和白人收人的过程中，我们发现. 
MRP 在两个尾部并不是均匀分布的。 LRP =—0.3152, 为 
URP =—0.1447 的 一 2倍。因此，黑人家庭户的下半部分具有 
比白人下半部分更窄的宽度。下半部分中大约 16%( LRP 的 
一半)的黑人朝中位数集中。黑人家庭户的上半部分与白人 
家庭户更相似，其中只有约7%的家庭户朝中位数集中。综合 
起来，我们可以看到，黑人的分布比白人的分布更加右偏。 

相对分布的趋势 

相对分布方法创建了相对数据，该数据提供了分析不平 
等的更大的灵活性。比如，我们很想知道，黑人一白人收人 
分布差异如何随着时间演变。我们是否看到黑人一白人收 
人差异在经历了 20世纪70年代的扩大之后，出现了一个停 
滞？我们可以用黑人一白人相对密度和顺序分解来提供图 
形考察，并可以用相对熵来了解整体分化，用 MRP 及其分解 
来了解相对极化。 


表 5. 5相 对熵: 1985-2001 年黑 人一白 人收入分化趋势 


年份 

相对熵 

年份 

相对熵 

1985 

0. 184 

1993 

0. 170 

1987 

0. 241 

1995 

0. 166 

1988 

0. 180 

1996 

0. 140 

1991 

0. 199 

2001 

0. 137 


资料 来源: SIPP : 
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基于十分位上的相对比例，我们计算八个调查年份每一 
年的相对熵指数，结果显示在表 5. 5中。1987年出现了最大 
的黑人一白人收人分化，1996年和2001年分化最小。 

接下来，我们比较黑人和白人分布之间的极化。与表 
5.5 中单一年份的说明一样，我们使用中位数调整，同时 
用 reldist ( Jann , 2008) 得到中位数、下端尾部和上端尾部 
的相对极化指数。因为该方法比较集中关注调整中位数 
后的形状差异，因此，相对极化概括了尺度改变和形状改 
变。相对极化提供了相对熵中未揭示的黑人和白人分布 
尾部之间差异的数量和方向的信息。结果见表 5. 6和图 
5.6。最显著的模式是 MRP 和 LRP 随时间推移而波动， 
而 URP 相对保持不变。图 5. 6直观地显示了 URP 的稳 
定性和 LRP 的波动，这一波动影响着整体相对极化 MRP 
的波动。 


表 5. 6中位数相对极化 ( MRP ) 及下部和上部 成分: 
1985—2001 年黑人 一白人 收入极化趋势 


年份 

MRP 

LRP 

URP 

1985 

-0. 2321 

— 0. 3112 

-0. 1529 

1987 

-0. 2547 

-0. 3648 

-0. 1445 

1988 

一 0. 2060 

— 0. 2907 

-0. 1214 

1991 

-0. 2107 

—0. 3408 

-0. 1407 

1993 

一 0. 2145 

-0. 3003 

一 0. 1286 

1995 

-0. 2195 

一 0. 3217 

-0. 1173 

1996 

-0. 2429 

-0. 3708 

一 0. 1150 

2001 

一 0_ 2299 

-0. 3152 

-0. 1.147 


注 ： MRP = 0. 5(LRP + URP) 。 LRP: 下部相对 极化 ; URP: 上部相对极化 = 
资料 来源： SIPP 。 
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图 5. 6 1985-2001 年黑人 一白人 收入中位数及下部和上部极化的变动趋势 

相对分布分解方法如何不同于第4章中所介绍的基尼 
分解等概要不平等测量分解呢？我们强调了由合并两个分 
布的相对分布方法所提供的许多机会。相对分布方法在概 
括两个分布的分化和极化方面很灵活。这些量对横断面和 
时间趋势研究都很有用，它们提供了补充已有概要不平等测 
量的不平等替代测量。比如，更大的相对熵表明比较和参照 
组之间更大的不平等。极化指数提供了对下尾部和上尾部 
敏感的测量，而概要不平等测量只对某一尾部（或者底部或 
者顶部)敏感。 

以这些发现，我们就有能力回答本章开篇我们提出的那 
两个问题。1985年到2001年的17年间，黑人一白人收人分 
化的波动起伏，主要归因于黑人收人分布下半部分的波动。 
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相对分布分解方法如何不同于第4章中所介绍的概要 
不平等测量？我们展示了由合并两个分布的相对分布方法 
所提供的机会。相对分布方法在将整体差异分解为位置及 
尺度和形状改变方面很灵活。相对熵不同于之前所讨论的 
泰尔指数和其他广义熵指数，主要是因为相对熵刻画了两个 
分布的分化特征。 MRP 及其 LRP 和 URP 成分特别有用，因 
为它们在排除中位数影响的情况下，对两个分布的形状加以 
比较，并强调了两个尾部。我们已经使用人口子群体（黑人 
相对于白人)进行了举例说明。但是，相对分布方法的应用 
通常可以很广泛，而 MRP 尤其如此。我们可以直接将这些 
基于相对分布的方法用于空间比较，比如，美国内部跨区域 
的比较或者跨国比较，以及时间上的比较。 

到目前为止，本书中所有的说明性例子都将经验数据近 
似看成整个总体。样本变异会导致不精确的估计值。为了 
避免将随机干扰理解成真实模式，我们必须处理不平等测量 
的推断问题，这是下一章的主题。 
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在许多研究中，研究者只能得到样本数据而不是整个总 
体。而且，全国性调查数据通过使用多阶段整群分层抽样等 
复杂抽样设计的调查来收集，因此，总体中的个体'经常但并 
不总是具有不同的被抽取概率。因此，针对某一反应变量的 
不平等测量做推断，就会受到比在简单随机抽样情况下更复 
杂的抽样变异的影响。另外，由于几乎所有的不平等测量都 
是结果变量的非线性函数，因此，线性化方法被用来推导更 
复杂的标准误，尽管考虑了调查抽样设计。最后，当样本规 
模较小的时候，线性化方法及其渐近假定可能是有问题的， 
需要采用替代方法来量化抽样变异。这些问题将在本章中 
加以讨论。 

不平等测量，特别是基尼系数、泰尔指数和阿特金森族， 
在趋势研究（比如，比较不同时间上的收人不平等）、比较研 
究（比如，比较不同国家的收人不平等)和政策研究（比如，比 
较各种税收政策再分配的效果）中被广泛使用。当进行此类 
比较时，统计显著性就变成了一个经常被忽视的重要问题。 
本章将处理与不平等测量和相对分布测量有关的推断问题。 

宽泛地讲，有两种方法——渐近的和自举的一被用来 
处理不平等测量的推断。渐近法建立在抽样分布的正态渐 
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近基础上。基于渐近理论的渐近标准误 （ ASE ) 和置信区间 
在小样本情况下可能是有偏的，而且这些估计值的小样本属 
性通常是未知的。自举法使用500到2000个从实际样本得 
到的自举法抽取样本来估计抽样分布。自举法推论统计量 
包括自举法标准误 （ BSE ) 和置信区间，可应用于相对较小的 
样本，因为它没有做渐近假定 （ Burr , 1994； Hall , 1992)。假 
定两种方法采用简单随机抽样，因此，两者都需要进行修改 
以适用于复杂调查抽样设计的情形。 

杜克罗斯和阿拉尔提出了选取某一方法的一般性原则 
(Duclos Araar , 2006)。当观测案例数较大并且概要不平 
等测量估计量的抽样分布趋于正态时，我们可以放心地使用 
渐近法，它会得到与自举法几乎相同的结果。但是，如果估 
计量的抽样分布远不是正态的,渐近法会得到有偏的标准误 
和置信区间。 

本章将渐近法和自举法两者引人单一分布的概要不平 
等测量或相对分布中来。这些方法可以考虑调查抽样设计。 
我们将使用 SIPP 中的收入和财富数据作为经验例子来 
说明。 
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第1节 I 含调查设计效应的渐近方法 


杜克罗斯和阿拉尔的书提供了一个 Stata 程序，该程序 
在考虑调查抽样设计的情况下来估计基尼系数、阿特金森 
族、广义熵族、分位数比和份额以及它们的 ASE 和置信区 
间。将该方法应用于经验例子之前，我们对取自他们著作的 
一些基本原理加以回顾。 

根据杜克罗斯和阿拉尔的著作，按照大数定律和中心极 
限定理，有可能证明上面提到的大多数不平等测量都是一致 
且服从渐近正态分布的。一致性说的是，随着样本规模 趋于' 
无穷，估计量会接近于真实的总体参数。渐近正态性说的 
是，对于大样本而言，估计量的抽样分布是渐近正态的。两 
位作者使用一种标准的线性化方法来推导这些不平等测量 
的标准误。这一方法确保了一个给定的不平等测量的线性 
渐近具有一个近似正态的分布，其中，分布的均值由真实的 
总体参数近似地给出，而方差可以根据数据一致地估计而 
得到。 

复杂调查抽样设计能够影响不平等测量的标准误的精 
度。美国的全国代表性样本通常使用多阶段整群分层抽样 
设计。集群比如，城市统计区 （ MSA ) ——在其内部的总 
体元素之间比在集群之间更为异质。但是，层在层内比在 
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层间更加同质。整群抽样相当于使用一个加权抽样方案来 
选取想要包含的集群，而分层抽样通常涉及包含的所有层。 

比如，对于一项收入的种族差异研究而言， MSA 可能根据 
黑人居民的百分比来分层，那些黑人比例较高的 MSA 可被 
过度抽样，因此，比实际情况下更多的黑人受访者被包含在 
最终样本中。 

只选择某些集群会得到一个不如总体那么多样的样本， 

而且这是在估计不平等测量的方差中需要加以说明的。同 
样，随机选取层内的元素在本质上有别于简单随机抽样，而 
且这一抽样设计也必须加以说明。多阶段整群分层抽样设 
计有时候会导致总体元素之间不相等的入选概率。人选概 
率的倒数为抽样权重，表示一个样本元素所代表的总体元素 
的个数。不平等测量意在概括总体层次上的属性，但是如果 
未能考虑抽样权重，就只能对样本进行描述了。因此，抽样 
权重必须被用来对偏误进行修正。 

我们使用 SIPP 数据来举例说明复杂抽样设计。 SIPP 采 
用分层两阶段整群抽样设计。由于人口学和社会经济变量 
的多样化，层被通过对区域(东北部、中西部、南部和西部）内 
的小县城进行分组来构建得到。在整群抽样的第一阶段中， 

初级抽样单位 ( PSU ) 为集群(县、独立市和县群）。 PSU 的样 
本从县群的每一层中抽取，同时，所有的大县和独立市都被 
纳人。在第二阶段中，从每一个选中的 PSU 中选取家庭户。 

公用 SIPP 数据中的 PSU 和层变量为准测量，以避免识别出 
小地理区域和小样本个体的可能。在公用 SIPP 数据中，对 
于 SIPP 1991年的数据，层的数量为73个， PSU 的数量为 
144个。对于 SIPP 2001年的数据，对应的数字为105和 
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201。分层整群抽样导致被选中的家庭具有不同的抽样权 
重。此外，并非所有被抽中的家庭户都愿意参与调查，同时， 
第一波中的那些参与者也并非都能被追踪到。无应答率和 
失访(退出)率也会影响选中家庭户的最终抽样权重。 

DASP 程序，即分布分析的 Stata 程序 （Dudos & Araar , 
2006)，可用来免费取得单一不平等测量和两个总体在一个 
不平等测量上的差异的渐近推断。 DASP 能够很轻易地被安 
装到 Stata 中，它能够提供对大部分标准不平等测量的调查 
抽样设计进行解释的 ASE 。 

表 6.1 的第二部分给出了收人不平等测量的估计值。 
其顶部呈现了未加权估计值及假定简单随机抽样下的标准 
误和置信区间，底部呈现了加权估计值及意在对顶部预料到 
的偏误进行修正的标准误和置信区间。比如，未加权的基尼 
为 0. 423,大于加权的基尼 (0. 422)。未加权估计值的向上偏 
误存在于所有中部或顶部敏感的测量中。不过，未加权的底 
部敏感测量 410// J 50、 息都是向下有偏的，而且此 
偏误要比中部或顶部敏感不平等测量中的偏误更大。 

既然假定了简单随机抽样，顶部的标准误估计值也将是 
倾向于有偏的。我们需要纳人与调查设计有关的信息，包括 
整群抽样信息 （ PSU ) 和分层抽样信息 （ STRATA ) 。使用 
DASP 中适合于该调查设计的渐近方法，表 6. 1的底部呈现 
了比顶部更大的标准误和更宽的置信区间估计。比如，简单 
随机抽样假定下的基尼系数的95%置信区间为 [0. 420, 
0.427]。抽样设计被考虑之后，95%置信区间变成了 
[0.417, 0.427]。抽样变异差异对中部敏感测量似乎更小， 
而对底部或顶部敏感测量似乎更大，尤其是 GE _, 。 
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表 6.1 收入不平等测置的估计值和 推断: SIPP (2001 年) 


测 量 

估计值 

标准误 

95%置信区间 

未考虑调查的未加权结果 





基尼 

0.423 

0. 002 

0.420 

0. 427 

pio/pso 

0.281 

0. 003 

0.275 

0. 288 

户90//)50 

2.510 

0. 019 

2.473 

2. 547 

GE -! 

3. 512 

0. 766 

2.010 

5.014 

GE 0 

0. 349 

0. 004 

0. 342 

0. 356 

GEx 

0.310 

0. 004 

0. 303 

0.317 

ge 2 

0. 405 

0. 009 

0. 388 

0. 422 

A ( l /2) 

0. 149 

0. 001 

0. 147 

0. 152 

Ai 

0. 294 

0. 002 

0.289 

0. 299 

^2 

0.875 

0. 024 

0. 829 

0. 922 

考虑调查的加权结果 





基尼 

0. 422 

0. 003 

0. 4]7 

0. 427 

fil0/p50 

0. 287 

0. 004 

0. 280 

0. 294 

户90/ p 50 

2. 494 

0. 023 

2. 449 

2. 540 

GE-i 

3.859 

0. 893 

2. 090 

5. 629 

GE 0 

0. 346 

0. 004 

0. 337 

0. 354 

GE l 

0. 308 

0. 005 

0. 299 

0. 317 

GE Z 

0.404 

0.010 

0. 384 

0. 425 

A ( l /2) 

0. 148 

0. 002 

0. 145 

0. 152 

Al 

0. 292 

0. 003 

0.286 

0. 298 

A.2 

0. 885 

0. 024 

0. 839 

0. 932 


资料 来源: SIPP 。 


对不平等测量的兴趣并不仅限于单一总体的分析，我们 
也对总体之间的比较感兴趣。在比较两个总体的过程中，我 
们经常想对两个总体之间在某一不平等测量上的差异为0 
的零假设加以检验，这是 DASP 能够完成的一项任务。现 
在，我们来考虑对美国1991年和2001年之间的收人不平等 
进行比较的例子。表 6. 2给出了 1991年和2001年家庭户的 
收人及其差值 (2001 年的取值减去1991年的取值）、与表 6. 1 
中相同的一套不平等测量的点估计值、标准误、 r 比值、/>值 
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和95%置信区间。2001年的收人不平等显著地高于1991年 
的证据是较强的。尽管平均收人（以美元计算）从1991年的 
48065美元增加到2001年的51250美元，但人口下半部分的 
收入却停滞不前，正如 M 0/>50 分位数比的不显著变化所表 
明的。相反，上半部分出现了不相称的 增长： 比值/>90/^50 
从 2. 29上升到 2. 49,且变化是显著的。这一分化导致所有 
其他的不平等测量在这10年间都出现了显著的增加。比 
如，底部敏感的从 1. 3741增加到 3. 8592,顶部敏感的 
GE , 从 0. 2677上升到 0. 4041，中部敏感的测量出现了更细 
微的增长.如基尼(从 0. 3823到0.4216)。 

表 6. 2检验收入不平等测置上的 差异: SIPP ( 1991年和2001年） 


测 M 

估计值 

标准误 

t 

P > t 

95%置信区间 

基尼 _91 

0. 

3823 

0. 0023 

164. 6 

0. 000 

0. 3776 

0. 3869 

基尼 _01 

0. 

4216 

0. 0025 

169. 6 

0. 000 

0.4167 

0. 4265 

差值 

0 

0398 

0. 0031 

11. 6 

0. 000 

0. 0326 

0. 0160 

pl 0/ p 50_91 

0 

2904 

0. 0051 

56. 4 

0. ⑻ 0 

0. 2801 

0. 3007 

/>10//^50_01 

0 

2865 

0. 0035 

81. 5 

0. 000 

0. 2795 

0. 2935 

差值 

一 0 

0039 

0. 0062 

-0. H 

0. 533 

-0.0162 

0. 0084 

/>90//?50„91 

2 

2941 

0. 0222 

103. 3 

()■ 000 

2. 2498 

2. 3383 


2 

-1943 

◦ .0228 

109. 5 

0. 000 

2. 4492 

2. 5395 

差值 

0 

2002 

0. 0318 

6. 8 

0. 000 

0. 1375 

0. 2630 

GE - ,_91 

1 

3741 

0. 312-1 

4. ,1 

0. 000 

0, 7513 

1. 9969 

GE - ,_01 

3 

8592 

0. 8925 

4. 3 

0. 000 

2. 0896 

5. 6288 

差值 

2 

1 S 51 

0. 9456 

2. 6 

0. 010 

0. 6191 

4. 3511 

GE 0 _91 

0 

2851 

0. ⑻4 2 

67. 7 

0. 000 

0.2767 

0. 2935 

GE J )1 

0 

3457 

0. 0043 

80. 1 

0. 000 

0. 3371 

0. 3542 

差值 

0 

0606 

0. 0060 

10. 1 

0. 000 

0. 0487 

0. 0725 

GEi _91 

{) 

2407 

0. 0031 

78. 7 

0. 000 

0. 2346 

0. 2468 

GK ; _01 

0 

妒78 

0. 

68. 8 

0. 000 

0. 2989 

0. 3166 

差值 

v ) 

u 671 

0. 0051 

12. 4 

0. ()00 

0. 056-1 

0. 0778 

GE 2 _91 

0 

2677 

0. 0044 

61. 1 

0. 000 

0. 2590 

0. 2764 
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续表 


测 量 

估计值 

标准误 

t 

P>i 

95%置信 E 间 

G £：2_01 

0. 4041 

0. 0104 

39. 0 

0. ⑻0 

0. 3835 

0. 4246 

差值 

0. 1364 

0.0112 

12. 1 

0. 000 

0. 1142 

0. 1586 

Aa /9)_91 

0. 1216 

0. 0015 

81. 6 

0. 000 

0. 1186 

0. 1245 

A ( , 2 ,_01 

0. 1482 

0. 0017 

85. 1 

0. 000 

0. 1447 

0‘ 1516 

差值 

0. 0266 

0. 0023 

11. 6 

0. 000 

0. 0221 

0. 0311 

Ai _91 

0. 2480 

0. 0032 

78. 3 

0. 000 

0. 2417 

0. 2544 

AlOI 

0. 2923 

0. 0030 

96. 0 

0. 000 

0. 2862 

0. 2983 

差值 

0. 0442 

0. 0044 

10. 1 

0. 000 

0. 0355 

0.0529 

A 2 _91 

0. 7332 

0. 0445 

16. 5 

0. 000 

0. 6445 

0. 8219 

A 2_01 

0. 8853 

0. 0235 

37. 7 

0. 000 

0. 8387 

0.9319 

差值 

0. 1521 

0. 0503 

3. 0 

0. 003 

0. 0528 

0. 2513 


资料 来源: SIPP 。 


群体收人差异如何影响总的收人不平等呢？第4章中讨 
论过的加和分解原则表明，广义熵族满足这个原则。表 6. 3呈 
现了按种族群体的泰尔系数，即 GE , 的分解及其推断统计量。 
另外，我们只使用有关黑人和白人的数据，因此，总体泰尔指 
数的估计值与表 6. 3® 中的不同。总泰尔为 0. 3052,组间成分 
是组间泰尔 0. 0081，解释了总量中的 2. 7 %，而组内成分为 
0.2971，解释了总量中的 97. 3%。组内成分为组泰尔的加权 
和，权重是总份额与组均值对总均值之比的乘积。就白人来 
看，此加权的组泰尔的贡献为 0. 2669( 总量的 87. 5%);就黑人 
来看，则为0.03%(总量的 9. 9%)。该表以绝对值和相对值两 
种形式提供了总的和分组别的泰尔指数、总份额、组均值对总 
均值之比以及加权分组别的贡献的标准误。所有这些统计量 
都显著地区别于0。泰尔指数，即参数0为1时的广义熵测 


①原文此处误为“表 6. 2”. ——译者注 
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量，属于中部敏感的测量。随着^的上升，白人的贡献也在增 
加，而黑人的贡献则在下降。就 G 拉而言 ，白人的相对贡献变 
成了 91. 7%,而黑人的则为 6 . 4%。反方向而言，对于 G £, ，白 
人的贡献更低，处在 71. 7%，而黑人的则更高，处在28%。 


表 6. 3按种族的收入泰尔指数 分解: S 1 PPU 001 年) 


组群 

测量 

总份额 

( mu _ k / mu ) ^6 

绝对贡献 

相对贡献 

1. 白人 

0. 2949 

0. 8633 

1.0483 

0. 2669 

0. 8746 


0. 0047 

0. 0025 

0. 0021 

0. 0044 

0. 0038 

2. 黑人 

0.3175 

0. 1367 

0. 6950 

0. 0302 

0. 0988 


0. 0094 

0. 0025 

0.0121 

0. 0013 

0. 0046 

组内 

— 

— 

一 

0. 2971 

0. 9734 

组间 

— 

— 

— 

0. 0081 

0.0266 


— 

— 

— 

0. 0001 

— 

总和 

0. 3052 

1.0000 

— 

0. 3052 

1. 0000 


0. 0045 

0. 0000 

— 

0. 0045 

0. 0000 


资料 来源: SIPP 。 


收人代表着家庭户的资源流动，而财富则反映了存量。 
美国的财富不平等在同一时期是如何演变的呢？我们使用 
SIPP 财富数据来考察允许资产净值为负值的不平等测量在 
1991年与2001年之间的差异。基尼系数、基于分位数的测 
量和 GE 2 (变异系数平方的一半)都能够处理负资产净值和零 
资产净值，结果呈现在表 6 . 4中。首先，我们注意到，资产净 
值的基尼系数远远大于收人的基尼系数。此外,基尼从1991 
年的 0. 6944到2001年的 0. 7635,增加了 0. 069„这一增量是 
显著的。比值焯5//>75显著地下降，这表明中间50%的人口 
在财富上的分化。同样，比值妁0//>90也下降，意味着典型的 
美国家庭户当时比最富足的5%更穷。我们也来看看下半部 
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分的份额与最高5%的份额的份额比。此份额比表明，家庭 
户财富相对于最高5%，增长得有多快。最后，通常与方差和 
变异系数等价的 GE 2 大大增加，它反映了顶部末尾的情况。 


表 6. 4检验财富不平等测量估计值的 差异: SIPP ( 1991年和2001 年) 


测量 

估计值 

标准误 

t 

P>t 

95 %置信区间 

基尼 _91 

0. 6944 

0. 0035 

197. 5640 

0. 0000 

0. 6874 

0. 7014 

基尼 _01 

0. 7635 

0.0142 

53.8138 

0. 0000 

0. 7354 

0. 7916 

差值 

0. 0691 

0.0146 

4. 7260 

0. 0000 

0. 0402 

0. 0979 

p 25/ p 75_91 

0. 0378 

0. 0025 

15.0647 

0. 0000 

0. 0328 

0. 0428 

p ' Zo / p 7 o _ 0 \ 

0. 0216 

0. 0017 

12. 9010 

0. 0000 

0.0183 

0. 0250 

差值 

一 0.0162 

0. 0030 

-5.3537 

0. 0000 

-0. 0221 

-0.0102 

p 50 / p 90_91 

0. 1014 

0. 0023 

44.0190 

0. 0000 

0. 0968 

0. 1060 

/ >50/>90_01 

0. 0840 

0. 0017 

49. 6032 

0. 0000 

0_ 0807 

0. 0874 

差值 

-0.0174 

0. 0029 

-6. 0757 

0. 0000 

-0. 0230 

-0.0117 

sb 50/ st 5_91 

0. 1244 

0. 0052 

23. 7494 

0. 0000 

0. 1140 

0. 1349 

sb 50/ st 5_01 

0. 0449 

0.0120 

3. 7496 

0. 0003 

0. 0212 

0. 0687 

差值 

一 0. 0795 

0.0131 

-6. 0798 

0. 0000 

—0. 1053 

—0. 0537 

GE 2 _91 

1.4758 

0. 0635 

23. 2430 

0. 0000 

1.3492 

1. 6023 

G £ 2 _01 

40. 9671 

30. 0551 

1.3631 

0. 1758 

-18. 6265 

100. 5608 

差值 

39.4914 

30. 0551 

1.3140 

0. 1917 

-19. 8211 

98. 8039 


资料 来源: SIPP 。 


表 6. 5按种族群体的财富不平等测置 分解: SIPP (2001 #} 


组群 

GE 2 

总份额 

均值比平方 

绝对贡献 

相对贡献 

1. 白人 

37. 3750 

0. 8629 

1. 2553 

40. 4847 

0. 9982 


27. 1211 

0. 0025 

0. 0064 

29. 5457 

0. 0013 

2. 黑人 

3. 3032 

0. 1371 

0. 0586 

0. 0266 

0. 0007 


0. 4014 

0. 0025 

0. 0067 

0. 0059 

0. 0006 

组内 

— 

— 

— 

40.5113 

0. 9989 

组间 

— 

— 

— 

0. 0456 

0. 0011 


— 

— 

— 

0. 0009 

— 

总和 

40. 5569 

1. 

0000 

— 

40, 5569 


29. 5442 

0. 0000 

一 

29. 5442 


资料 来源: SIPP 。 
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我们以 G £ 2 为例，进一步考察种族群体如何影响总财富 
不平等(见表 6. 5)。与针对家庭户收人的分解类似，我们只 
看黑人和白人的子群体。 Gf ： 2 组内成分的权重不同于 G £, 
(泰尔指数），因为我们使资产净值的组均值对总均值之比平 
方。表 6. 5显示，白人资产净值的 G £ 2 远远大于黑人的情 
况。 总 GE 2 中只有 0. 1%受到了组间成分的影响，而其余 
99. 9%源于组内成分，其中，白人种族群体的多样性贡献了 
总 G £ 2 的 99. 8%，而黑人种族群体的多样性实际上对总 G £ 2 
并无贡献，因为 0. 07%并不显著地区别于 0。 

使用表 6. 1到表 6. 5,我们已经示例性地说明了意识到 
样本并非总体及恰当地考虑复杂调查设计的重要性。调整 
调查设计的渐近方法得到恰当的推断统计量。 DASP 程序使 
对各种不平等测量调整调查设计的渐近方法变得更便利。 
对于小样本和基于相对分布的不平等测量，自举法会更恰 
当。下一节我们将介绍这一方法。并无此需要的读者可以 
跳到下一章。 
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第2节 | 自举方法 


自从艾福荣及蒂鲍希拉尼推广自举方法以来 （ Efron ， 
1979; Efron 8>- Tibshirani , 1993) ，它已被应用到诸多统计推 
断问题上。 ASE 建立在解析的线性渐近逼近基础上，而 BSE 
则建立在强力计算重复抽样思路的基础之上。下面，我们先 
简单地介绍标准的自举法(更详细的内容见 Mooney &■ Du ¬ 
val , 2003)。我们还将简单讨论考虑了调查设计的自举法 
(Duclos &- Araar , 2006)。 

自举法基本原理 

以一个随机数种子开始，我们从规模为《的实际数据样 
本中，以回置方式重复抽取规模为 n (或者《足够大时，一•个 
小于《的规模)的 B 个（比如，500至 2000) 随机样本。每一个 
自举法样本都略微不同于实际样本，同时，各自之间也都略 
有不同，原因在于采用了回置抽样 ® ——某些观测案例将在 


①也译为"重置抽样”、"重复抽样”或“有放回的抽样”等,是指从总体单位中抽 
取一个单位后.将其放回总体中.然后再抽取下一个单位，这种连续抽取样本的方法就 
被称做“回置抽样”。由此可见.回置抽样时.总体单位数在抽选过程中始终未减少.总 
体而言，各单位被抽中的可能性前后相同，而且各单位有被重复抽中的可能。——译 
者注 
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自举法样本中出现多次，而其他的将被忽略掉。此外，重要 
的是要注意，当执行重复抽样时，样本是独立获取的。所得 
的500到2000个估计的不平等测量（比如，基尼)构成了一个 
分布，该分布近似于基尼估计量的抽样分布。如果想复制整 
个过程，相同的随机数种子必须被用来取得完全相同的抽样 
分布。自举法包含两个步骤的 B 次 操作： 

首先，以回置抽样方式从规模为〃的样本中抽取一个规 
模为 〃的 自举法样本。其次，使用这第一个自举法样本计算 
所关注的不平等测量，得到 B 自举法估计值，这些将被用来 
计算自举法推断统计量。 

为了取得 BSE . 我们只需要计算自举法样本的标准差。 
我们经常使用 B = 500来生成 BSE ， 用 1. 96 BSE 可以计算围 
绕自举法均值的95%置信区间。 

接下来，我们放松估计值抽样分布的正态性假定。方法 
之一被称做“百分位数法”。如果我们有999次试验，并将估 
计的不平等测量（比如，基尼系数)从低到高加以排序，那么， 
95%置信区间就以第25个和第975个基尼系数为界。因为 
999个估计的基尼系数值都没有出界，因此,95%置信区间也 
不会出界。我们用一个更大数量的重复样本（比如，1000至 
2000) 来产生基于百分位数的置信区间。与替代方法相比， 
基于百分位数的置信区间表现优异 (Burn 1994)。 

若干程序已被发展出来用于处理估计值的自举法分布 
也许有偏的可能性，包括偏误修正百分位数法以及偏误修正 
和加速法 （Efron Tibshirani , 1993; Mooney Duval , 
1993)。 这里，我们对只涉及偏误修正因子的偏误修正百分 
位数法进行说明。此方法针对中位数上的偏误来调整区间 
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的上下限 (Efron Tibshirani , 1986) „ 

首先，计算偏误修正因子是与比用实际数据得到的估计 
值更小的自举法估计值的比例相对应的标准正态分数。令 
I 为以实际数据得到的不平等测量 ， f •为以自举法样本得 
到的不平等测量，而％为偏误修正因子。我们定义 z 。 = 
4>-'[ Pr ( ?* < I )],其中，$是标准正态累积分布函数,* 
是其逆函数，也就是分位数（百分位数）函数。比如，小于实 
际估计值的自举法估计值的比例为 0. 55，那么，对应的标准 
正态分数 z 。 = 0. 125。 

其次，以这一偏误修正因子对被用来计算想要的置信区 
间界限的百分位数进行 修正： ci w = + 2 Z 。））， 

)为 估计的不平等测量的 
分位数函数。我们基本上使用不同的百分位数来调整中位 
数偏误。比如，对于95%置信区间，= — 1. 96且2,- 0/2 = 
1. 96。在中位数偏误的例子中，我们并未使用1000次重复中 
的第25个和第975个自举法估计值。我们通过加上偏误修 
正因子的2倍， 2 z 。 = 2 X 0. 125 = 0. 25,对 z 分进行修正。 
因此，对于下限，偏误修正的 z 分变成了 一 1.96 + 0.25 = 
—1. 17,而对于上限，则为 1. 96 + 0. 25 = 2. 21。对应的累积 
密度为 0.044 和 0. 986。因此，偏误修正百分位数法得到了 
以第44个自举法估计值为下限和第986个自举法估计值为 
上限的95%置信区间。 

此偏误修正方法假定自举法估计的标准误对所有的估计 
值都是不变的。当这一假定不成立时，就需要做进一步的调 
整。有兴趣的读者可参看艾福荣和蒂鲍希拉尼有关加速方法 
和偏误修正方法的内容 (Efron Tibshirani , 1993:186)。 
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研究者可以使用乔利夫等人编写的 Stata 程序 “ meqerr ” 
来获得所选取不平等测量的自举法推断统计量 （Jolliffe & 
Krushelnytsky , 1999)。 “ ineqerr ” 会给出基尼系数、泰尔指数 
和对数方差的基于正态性的、基于百分位数的和偏误修正的 
自举法置信区间。 

使用类似的程序，自举方法也可被用来检验两个总体之 
间在一个不平等测量上的差异是否显著地不同于0。根据从 
两个实际样本中再抽取的样本，我们估计了这两个样本之间 
在一个不平等上的差异。这些得到的差异估计与此差异抽样 
分布近似。参见杜克罗斯和阿拉尔 (Duclos Araar , 2006)。 

相对分布测量的自举法推断 

相对分布方法用于考察比对分布对参照分布所得到的 
整个相对分布，概要测量可根据此相对分布得到。因为这些 
概要测量估计量的渐近性质是未知的，所以我们利用自举法 
标准误和自举法置信区间的稳健性。 

这一程序可描述为四个 步骤： 

第一，以回置抽样方式，从参照组样本中抽取一个自举 
法样本，同时也从比较组样本中抽取一个自举法样本。 

第二，根据这两个第一轮的自举法样本，我们创建了自 
举法相对数据，根据这一数据，我们得到第一轮的概要测量。 

第三，将步骤1和2重复1000次。 

第四，所得到的概要测量的自举法分布的中部95%界定 
了这些概要测量的95%置信区间。前面讨论过的偏误修正 
方法可被应用于自举法置信区间。 
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在将黑人收人分布（比较组）与白人收人分布（参照）进 
行比较的过程中，我们用来自1000个自举法样本的相对熵 
估计值来获得推断统计量（见表 6. 6)。观测的相对熵为 
0. 1375。基于百分位数的95%置信区间为 [0. 1204, 0. 1576], 
而偏差修正的区间为[0.1187, 0.1546]。这些结果反映了黑 
人收人分布和白人收人分布之间的一个显著分化。具体而 
言，偏误修正的置信区间显示，相对熵的下限为 0. 1187,上限 
为 0. 1546。基于实际数据的中位数相对极化 (MRP) 被估计 
为 一0.2248, 其95%置信区间为 [—0. 2467, —0. 2028]，偏 
误修正的区间为[一0.2475, 一0.2033]。这两种置信区间也 
由下部相对极化 (LRP) 和上部相对极化 （URP) 提供。这表 
明，黑人收入比白人收入更不极化，而且 LRP 对 MRP 的解 
释量是 URP 的两倍 ® ，因为 LRP 的上限（根据偏误修正的 
CI， 为 一0. 2717) 远低于 URP 的下限 （一0. 1686) 。 


表 6. 6黑人收入和白人收入之间相对熵 
和相对极化的自举法 推断: SIPP(2001 年> 


测量 

实际的样 
本估计值 


自举法样本 


基于百分位数的 CI 

偏误修正的 CI 

第25个 

第975个 

第25个 

第975个 

RE 

0. 1375 

0. 1204 

0. 1576 

0. 1187 

0. 1546 

MRP 

-0. 2248 

-0. 2467 

-0. 2028 

-0. 2475 

一 0. 2033 

LRP 

— 0. 3095 

-0. 3497 

— 0 . 2745 

-0. 3462 

一 0. 2717 

URP 

-0. 1401 

-0. 1656 

-0. 1104 

-0. 1686 

-0. 1130 


注: LRP: 下部相对 极化; MRP: 中位数相对极化; RE: 相 对熵; URP: 上部相 
对极化。自举法推断基于1000个自举法样本。 MRP=0. 5XLRP+0. 5X 


资料 来源: SIPP。 


①原文此处有错•变成了 LRP 与 UP 自己的比较,这里将后一个 LRP 改正为 
URP , ——译者注 
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含调查抽样设计的自举法 

当自举法抽样被用到复杂调查设计的情形中时，我们需 
要考虑该设计，以得到估计值的恰当标准误。复杂调查设计 
经常包含集群和根据一些特征所形成的层。与简单随机抽 
样相比，聚群会增加标准误，而分层则会减少标准误。复杂 
调查设计往往导致最终抽样单位具有不同的抽样权重。抽 
样权重被用来估计加权统计量，但它对调整这些加权统计量 
的标准误并无帮助。 

当使用调查数据时，我们应当对调查抽样设计保持警 
觉，并设法得到与调査设计有关的三个基本变量——初级抽 
样单位、层和抽样权重。因为 psu 和层都是涉及地理编码 
的，因此，调查组织方为保护隐私的惯常做法是不提供实际 
的 PSU 和层。一些调查会提供与原始设计近似的准 PSU 和 
层， SIPP 数据就属于这种情形。根据调查的自举涉及从每一 
层抽取自举法样本的行为 （ Biewen ， 2002； Biewen &. Jen ¬ 
kins , 2006; IXiclos &- Araar , 2006)。 Stata 中的 “ bsample ” 
命令通过设定层和 PSU 的选项，允许对调查设计加以考虑。 
一个由杜克罗斯和阿拉尔编写的、用于进行分布分析的独立 
软件包 DAD ， 专门对一套不平等测量以复杂调查数据来执行 
自举法。本 • 詹恩编写的 Stata 程序 “ reldist ” 对相对极化及 
其分解的估计来自复杂调查数据的自举法标准误 （ Jarm ， 
2006)。我们将在最后一章的真实例子中展示这些工具的使 
用方法。 
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渐近方法和自举方法的表现 


正如上面提到的，杜克罗斯和阿拉尔建议，当样本规模 
较大且概要不平等测量估计量的抽样分布趋于正态时，我们 
可以放心地使用渐近方法 (Duclos Araar , 2006)。含混不 
清的问题是，多大的样本规模才足够大？另一个很不清楚的 
问题在于，不平等测量的不同类型之间的抽样变异，以及不 
平等测量对其敏感的分布的不同区域之间的抽样变异是否 
存在差异？为了给出这些问题的答案，我们进行蒙特卡洛实 
验,大致将 SIPP 2001年的收人数据集视为一个全部人口，我 
们可以对它计算出五个不平等测量的“真实” 值:基 尼系数 
(中部敏感的）、阿特金森指数 A 1/2 (中部敏感的）、泰尔指数 
(中部敏感的）、 GEh (底部敏感的)和 G £ 2 ( 顶部敏感的)。我 
们利用抽样过程的蒙特卡洛模拟来确定这两个置信区间技 
术的表现。我们重复地从总体中抽取样本，并将它们视为在 
收集样本数据时得到的样本，同时，对真实的不平等测量构 
建一个置信区间。通过重复这一过程，我们能够凭借正确实 
现以95%概率包含真值(包含概率)的能力及其长度和形状， 
来确定置信区间技术的表现。 

为了比较渐近方法和自举方法，我们考虑下面两种 情形： 
小样本规模 (100) 和大样本规模(1000)。实验目的是用三个 
标准来评估95%置信区间的表现 :（1)95 CI 包含真值的概率 
(95 %被认为是一个好表 现）； （2)95 CI 的平均 长度； （3) 以上界 
对下界的比值(被期望接近于 1) 来描述的 CI 的形状。 

对于渐近方法，我们以无回置方式抽取任一规模的一个 
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样本，用杜克罗斯和阿拉尔的 DASP 程序得到95%置信区 
间，并重复这一步骤1000次。基于这1000个置信区间，我们 
得到上述三个标准的概要值。对于自举方法，我们以回置方 
式抽取任一规模 (100 或 1000) 的一个样本，并重复使用自举 
抽样百分位数法和自举抽样偏误修正和加速 （ BCa ) 法1000 
次。为了确保一个公正的比较，我们对三种方法都使用相同 
的自举法抽取。抽取样本和建构置信区间这一步再次被重复 
1000次，然后，我们得到三个标准的概要值。 

比较这两种方法之间和各不平等测量之间的这些标准有以 
下建议 :第一 ，如果样本规模为1000或更大，那么，渐近方法可 
被放心使用，因为渐近方法和自举方法的表现几乎完全一样，而 
自举方法需要密集的计算时间。第二，当样本规模比较小的时 
候，比如100,渐近方法和自举方法呈现出较差的表现。 BCa 方 
法只是略微对百分位数方法有所改进。因此，我们并不推荐将 
BCa 方法作为常规做法。此外，并不存在与自举方法相联系的 
很大收益。在两种方法中，建立在估计量标准误的估计值基础 
上的置信区间比其应当呈现的情况更窄，这意味着，标准误估计 
值是向下有偏的。比如，在小样本情况下，基尼系数的 95 CI 包 
含概率约为90%。第三，不同类型的不平等测量之间的抽样变 
异存在巨大的差异，基尼系数更低(更精确)而阿特金森指数和 
广义熵测量则更高(更不精确)。抽样变异也会随着不平等测量 
在其上敏感的分布的区域而 变动: 中部敏感的为最低，顶部敏感 
的为次低，而底部敏感的则很高。具体而言，即使对于大样本 
(1000) ，包含 GE -, 真值的 CI 的百分比约为《)%，而且,当样本 
规模为100时，这一包含概率很差(<20%)。因此，在对底部敏 
感的不平等测量的推断进行解释时，我们必须小心谨慎。 [14] 
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第3节 | 小结 


本章对不平等测量的推断进行了讨论。我们使用包含 
了复杂调查设计的 DASP 程序，示例性地说明了渐近标准 
误、置信区间和一套不平等测量的假设检验的计算。我们也 
对以标准自举方法对基于相对分布的不平等测量进行推断 
做了说明。此外，我们也介绍了针对复杂调查数据的自举方 
法。我们突出了对不平等测量进行推断的重要性，因此能够 
以一定的把握度将其一般化到总体中。 

到现在为止，我们的关注点一直是整个人口或两个人口 
之间的不平等。不平等的来源经常不仅仅包括一个分组变 
量。两个群体之间不平等的模式会将分组变量的效应与其 
他因素的效应混淆起来。为了可信地描述在控制其他因素 
的情况下两个群体之间的差异，我们转向基于模型的方法， 
这是下一章的主题。 






7 章 


分析不平等趋势 
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第1节 I 分析不平等趋势 


不平等研究关注一个总体的属性的不均匀分布，比如收 
人。这一属性与某些总体特征有关，比如，种族、教育和年 
龄。两个时期之间，影响该属性边际分布的总体特征的构成 
和给定这些特征情况下该属性的条件分布可能有变化。因 
此，特征构成的变化和控制特征不变的情况下，属性分布的 
变化都会影响不平等测量的趋势。这里，我们介绍一种方 
法，它将不平等测量的变化分解为构成成分和条件成分 
(Machado &- Mata , 2005)。请参见迪那多等人以及詹金斯 
和凡 • 克尔曼著作中关于密度分解的相关主题 (DiNardo et 
al . ，1996; Jenkins &- Van Kerm , 2005)。 

请考虑一个简单的情形，即属性是收人，特征是种族，其 
中，黑人是少数而白人是多数。收人不平等随时间推移而出 
现的整体变化源于两个不同的成分——种族构成上的变化 
和给定种族情况下，收人的条件分布上的变化。这两个成分 
上变化的结合可以在三个不同的方面，对变化中的不平等产 
生影响 :第一 ，黑人一白人收人差距的增大且更大的黑人比 
例毫无疑问将会增加不 平等; 第二，黑人一白人收人差距的 
减小且更小的黑人比例毫无疑问将会减少不 平等; 第三，黑 
人一白人收人差距的增大(减小）且更小（更大）的黑人比例 
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将导致不平等岀现一个整体变化。因此，重要的是区分每一 
个来源的贡献。为此，我们使用一种反事实分解方法进行分 
析 （Machado & Mata , 2005)。 

反事实方法的关键要素是，创建一个真实世界中并不存 
在的反事实分布:在给定另一时期的协变量的情况下，一个 
时期的条件反应分布。在介绍此方法之前，我们将条件分布 
定义为给定协变量情况下，反应变量的分布，将联合分布定 
义为反应变量和协变量共同的分布，而将边缘分布定义为不 
考虑协变量情况下的非条件分布。边缘分布可以通过对协 
变量所有取值上的联合概率质量(密度）函数求和(更一般而 
言，求积分)得到。这一根据联合分布得到边缘分布的过程 
被称为“边缘化”。 

令5为家庭户收人（略去了家庭户的下标），并令1为 
一个协变量，它可以是连续的（比如，能力）或离散的（比如， 
种族）。我们用 C , 来表示 Z 时 x 的构成，用 F ( y ； C ,) 来表不 
y t 的边缘分布。请注意，这是个实际分布而不是反事实的。 
当我们考虑不同时间 s 时的协变量的构成并使用 f 时3"的 
条件分布时，我们就得到了一个反事实的边缘分布，将其记 
为 F ( y t ； C ,)。 概要不平等测量 J 上从时间1到时间2的变 
化由 A / = / 2 - /, = 7[ F ( v 2 ； C 2 )]- I [ F ( y ,； C ,)] ①给出。 
通过引人一个反事实边缘分布，我们从代数上可以将这一变 
化表达 如下： 


AI = { I [ F ( y 2； C 2 )]~ I [ F ( y 2 ； C ,)]} 

+ { I [ F ( y 2 ； C ,)]- J [ F (^ 1； C ,)]} 


[7.1] 


X 原文此处多了两个左括号.已刪除 y ——译者注 
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其中，第一项 HF ( y 2 ； Q )]- I [ F (^; CO ] 反映了在固 
定条件分布的情况下，协变量构成变化的贡献； HF { y 2 ； 
C ,)] _ J [ F (^ ; C ,)] 反映了在给定协变量，即固定构成的情 
况下，条件反应分布上变化的贡献。 

在方程 7. 1中，反事实不平等固定了时间1处的协变量 
构成和时间2处的条件反应分布 C ,) 0 一个相反的顺 
序是，固定了时间2处的协变量构成和时间1处的条件反应 
分布 F (% ; C 2 )。 分解方程变成 AJ = {/ [ F (^; Q )]- 
CJM + UDFh ; G )] — I [ F () 1; Q )]} 。两种顺序 
之间的结构也许不同。我们可以取它们的平均值作为最终 
的分解。 

反事实分布在 x 为取值为0或1的二分变量的特殊情 
况下很容易理解。在这一情形中，在任一给定的时期 t 中，属 
性 J 只有两个条件分布需要考虑，即 x = 0时 j 的条件分布 
和 x = 1时 j 的条件分布。我们用/, 0) 和/, ㈠ 1 1) 来表示 
r 时 x =0或 x = 1的情况下条件概率密度函数或概率质 
量函数 ( PMF ) ，用 c ,(0) 和 c ,( l ) 分另表示 i = 0和 i = 1时的 
人口比例。那么^在 i 时的边缘概率密度函数（非反事实 
的) 为： 


My I 0) r ,(0 )+/,(y I l ) c ,( l ) 

它具有两个条件分布的加权平均值的形式。然而，当我们基 
于不同时间 s 处的（协变量）构成来构建《时的反事实分布 
时，我们使用相同的条件分布和一个不同时间上的比例，分 
别以 c s (0) 和 Cs ( l ) 替换人口比例 c ,(0) 和 c ,( l )， 得到： 


fXy I 0) c ,(0) 十 /,(y I Dc / l ) 
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为了用统计软件进行计算，将基于此反事实分布的不 
平等测量的计算当做通过使用包含反事实抽样权重的不平 
等测量而得到的是有帮助的。定义两个权重 w (0) = 
q (0)/ C ,(0) 和 W ( l ) = Ci ( l )/ c ,( l )， 我们可以重新将 f 时的 
反事实表 达为： 

L ( y \ o ) Cl ( o ){ c ^)+ f ,( y \ i ) c : ⑴(謂) 

= f,(y \ 0) c ,(0) w (0) f,(y \ l ) c ,( l ) w ( l ) 

它基本上是 f 时的一个加权边缘分布。比如，1991年时 G 
时），有2285名黑人和15369名白人被抽中作为样本个体，而 
2001年时 U 时），有3403名黑人和20182名白人被抽中作为 
样本个体。对于顺序1的反事实， c s ( l )= 0. 1443且 c ,( l ) = 
0. 12%。然后，权重被计算为 it < l ) = 0. 1296/0. 1443 = 
0. 8897, w (0) = 0. 8704/0. 8557 = 1. 0076。对于顺序2的反 
事实，权重被计算为 w ( l ) = 0. 1443/0. 1296 = 1.1134, 
w (0) = 0. 8557/0. 8704 = 0. 9831。这些权重在计算不平等 
测量的过程中，应被处理成分析性权重。 [15] 

这种二分变量的情形可被推广至多类别的情形。设想 
有 K 个类别，因此: c 从1，…， K 中取值。第6个类别的人 
口比例被记为 K «。 每个类别的权 重为： 


我们可以直接用这些权重来计算加权不平等测量，并以 
DASP 程序来检验它们差异的显著性。以这种方式，反事实 
分解可被应用于任何概要不平等测量。表 7.1 给出了基尼 
系数 G 、 泰尔指数了和广义熵 G £ 2 。 我们对两种反事实排序 
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之间的成分求平均值，在本例中，两者相似。结果表明，种族 
既定情况下的条件收人分布对整体不平等的压倒性影响 
(97. 4%— 97. 9%)在这10年间有所变化。 

在我们的例子中，种族既定情况下的条件收入分布与给 
定教育情况下的条件收人分布混淆在一起，仅仅根据种族来 
进行的简单分析具有误导性。通常，我们会引人多类别和连 
续协变量来更好地解释反应变量。当存在多个分类变量或 
恰好一个协变量为连续变量时，上述方法并不适用。要在这 
些更复杂的情形中，得到与上面我们对单一分类协变量所做 
的分析类似的趋势分析，需要引人一种基于模型的分解，我 
们在模型中以一些协变量来表达反应变量的分布。我们现 
在转向一种基于模型的分解方法。 


表 7.1 收入不平等的非基于模型的 分解: SIPP (2001 年) 


分 解 


G 

r 

A \：2 

1991年实 际的: fXw 

; C !) 

0. 381 

0. 240 

0. 121 

2001年实 际的: F (: y 2 

； C 2 ) 

0. 422 

0. 307 

0. 148 

整体变化 


0.041 

0. 067 

0. 027 

反事实顺序 hFbu 

Cl ) 




构成成分 


0.001 

0. 001 

0. 001 

条件成分 


0. 040 

0. 066 

0. 027 

反事实顺序 2 : F ( y 1; 

C 2 ) 




构成成分 


0. 001 

0. 002 

0. 001 

条件成分 


0. 039 

0. 066 

0. 026 

反事实顺序1和2的平均 




构成成分 


0. 001 

0. 001 

0. 001 

条件成分 


0. 040 

0.066 

0. 026 

百分比贡献 





构成成分 


2.5 

2. 1 

2. 6 

条件成分 


97. 5 

97. 9 

. 97.4 


资料 来源: SIPP 。 
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对两个时期的工资变化进行分析的奥扎卡一布林德回 
归分解方法，一直被广泛使用 （DiNardo et al _ ， 1996； Juhn et 
al . , 1993； Oaxaca , 1973)。 基于条件均值模型的线性回归 
模型，将工资的时间变化分解成一个反映协变量效应变化的 
成分和一个反映协变量构成变化的成分。但是，在拟合条件 
均值模型时，形状改变被吸收到残差中。为了以条件均值和 
条件形状来充分刻画条件分布的特征，马沙杜 （ Machado ) 和 
玛塔 ( Mata ) (2005) 使用分位数回归，将条件平均工资扩展为 
条件分位数工资 (Machado &- Mate , 2⑻5)。然后，估计的分 
位数回归 （ QR ) 系数与协变量的分解一并用于构建基于模型 
的、实际和反事实的边缘工资分布。将基于模型的实际边缘 
分布和反事实的边缘分布进行比较，就得到了与构成成分和 
条件分布成分有关的结论。马沙杜和玛塔的分布方法为对 
所有不平等测量进行基于模型的分解提供了便利。 

作为一个例子，我们将前面根据单个分类协变量的分析 
扩展到协变量向量中，包括种族、教育、年龄和常数项。 [ &自 
此以后.符号 x , 将被用来指代这样的一个协变量向量。分别 
针对每一时期 z 的分位数回归模型 （ QRM ) 可被表达如下 
(Hao &■ Naiman . 2007) : 

>'■ =戌乂 + ef 

这里 . 0 < 々< 1表示人口的累积比例。那么•第 A 个条件分 
位数为每一时间上给定 . r 的情况下， iV 的 函数： 

Of (_V, | X, )= [Bfx, 

t 时的第 p 个条件分位数以分位数别、时间别参数尤和 
协变量 A 的取值来进行估计。 
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基于模型的分解方法将收人不平等从时间1到时间2 
的整体变化分解成协变量的构成和给定协变量情况下，收 
入的条件分布。我们通过基于估计的 QR 系数 I 和所有协 
变量 C , 的实际分布的边缘化，来构造基于模型的边缘 分布： 

F(y, I p ,； C,) = (p ,； C,)(t =1,2) 

反事实边缘分布被定义 如下： 

F(y, I (3, ； C s ) = ( p, ； C s )(t = 1, 2, s = 1, 2 且 z 

顾名思义,反事实分布表示，如果 S 时的协变量构成起作 
用,那么， f 时将会盛行何种收人分布。 

根据构建的实际边缘分布，我们可以估计任一不平等测 
量，记为？ （ i ; C ,)。 同样，根据构建的反事实边缘分布，我 
们可以估计对应的测量，记为？ c ,) 0 通过比较这些测 
量，我们得到了一个两成分 分解： 

A 八 A 

A / = W 丨 

=Kp 2 ； Q)-7(p 1； C,) 

={K,2; Q) — /( p z » Ci)} + {/( P 2 ; C,) — 7( (3i ； Q)} 

[7.2] 

在这里，估计的不平等差异被区分成两个差值项。第一 
个差值项固定了时间2处的系数，但允许协变量构成在两个 
时间之间变动，因此反映了由所有协变量构成上的变化所导 
致的整体不平等测量的变化。第二个差值项固定了时间1 
处的协变量构成，但允许系数从时间1到时间2发生变化， 
因此，反映了由系数上的变化所导致的整体不平等的变化。 

方程 7. 2中的不平等测量建立在基于模型的边缘分布 
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的基础之上。对大量(但小于样本规模)分位数进行建模，有 
助于刻画分布的特征，但并不会再现分布。因此，我们需要 
同时使用图形方法和数值方法来描绘观测的边缘和建构的 
边缘之间的差异。给出一个图形展示和估计出整体不平等 
测量中未被解释的变异是有 益的： 

I=I + t 

下面，我们对用来获得基于模型的(程序 A ) 和基于反事 
实的(程序 B ) 边缘样本的经验程序进行逐步描述。两个程序 
都基于以下思路，从它们对应的边缘分布中得到近似 样本： 
对于从 (0, 1) 中随机选取的分位数值，我们从一个时期抽取 
了一行协变量数据，并将该行插人对相同时期或其他时期拟 
合得到的分位数回归模型中。所得到的反应变量值将具有 
正确的边缘分布。 

程序 A 包含以下步骤，以逼近每一时间 t 基于模型的边 
缘分布:（1)从均勻分布 U (0, 1) 中随机地选取一个 U ;(2) 使 
用完整的£时数据来估计第 U 个分位数 回归; (3) 从 t 时数据 
中选取一个规模为40的自举法样本，并根据分位数回归模 
型估计值得到40个预 测值; （4) 根据所选取的各行协变量: c , 
和分位数回归系数贫，计算第 [/个 条件分 位数； （5) 将步骤 
(1) 到步骤 (4) 重复500 次; (6) 将步骤 (5) 中得到的值 (500 X 
40 = 20000) 作为从基于模型的; yr 的边缘分布中抽取的一 
个随机样本。 

程序 B 包含以下步骤，以逼近基于模型的反事实边缘分 
布:（1)根据前面随机抽取时间1处的各行数据和估计 
的时间2处的分位数回归系数 g ,= 2 , 计算条件分位数，以建 
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构一个从反事实边缘分布 y ( p ,= 2 ； x , =1 ) 中抽取的 样本； 
(2) 通过使用随机抽取的时间2处的各行数据: r ,= 2 和估计的 
时间1处的分位数回归系数$,= ,，能够建立一个倒序的反 
事实边缘，以建构一个从反事实边缘分布 y ( 工, =2 )中 
抽取的样本。 

我们使用1991年和2001年的 SIPP 收人数据，对不平 
等测量基于模型的分解方法进行了举例说明。家庭户收入 
的分位数回归模型中的协变量包括种族（黑人相对于白 
人）、教育(大学教育相对于非大学教育）和生命周期（年龄 
和年龄平方）。我们得到了 1991年和2001年基于模型的 
边缘分布 F ( y , ， C ,) 和 F ( y 2 , C 2 ) 。我们首先来评价模拟的 
边缘分布在多大程度上与观测的边缘分布吻合。图示很有 
帮助（见图7.1)。对这两年而言，基于模型的核密度曲线大 
大保持了观测核密度曲线的位置、尺度和形状。相较观测 
曲线的顶峰，1991年基于模型的曲线在其顶峰处略微向右 
边移动了一点，这反映了两者的细微差异。2001年基于模 
型的曲线几乎完全与观测曲线相同。将表 7. 1和表 7. 2的 
前三行加以比较，我们发现，1991年基于模型的不平等实际 
上比观测的不平等更低，这导致基于模拟数据的不平等出 
现了比观测数据更大的整体变化。 

在模拟了两种顺序 F ( v 2 , G ) 和 F (. y ,. C 2 ) 的情况下基 
于模型的反事实边缘分布后，我们得到了四个模拟的边缘分 
布.根据这些分布，我们可以计算不平等测量并进行分解分 
析。我们呈现了基尼系数 G 、 泰尔指数了和阿特金森 A 12 的 
结果。为了对趋势的显著性进行检验.我们使用了渐近标 
准误。 
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| ——观测的 ——基于模型的 | 

(a) 核密度观测 
核=伊氏颗粒带宽 = 4. 0222 



| ——观测的 -一-基于模_ 


Cb ) 核密度观测 
核=伊氏颗粒带宽二 4 . 0222 

图 7. 1观测的对基于模型的收入边缘 分布： 1991年和2001年的 SIPP 数据 


表 7. 2基于模型的收入不平等 分解: SIPP ( 1991年和2001年) 


分 解 

G 

T 

Al 2 

1991 年实际的 ： f (. Vl; C - i ) 

0. 362 

0. 215 

0. Ill 

2001年实际的： C 2 ) 

0. 422 

0. 305 

0. 147 

整体变化 八 

0. 059 ** 

0. 090" 

0. 036” 

反事实顺序(力； C ,) 




构成成分 

0. 00.1 

0. 008 

0. 003 

条件成分 

0. 056 ^ 

0. 083 一 

0. 033 ^ 
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续表 


分 解 

G 

T 

Ai /2 

反事实顺序 2 :f (m; C 2 ) 

构成成分 

0. 003 

0. 004 

0. 002 

条件成分 

0. 056** 

0. 086** 

0. 034** 

反亊实顺序 1 和 2 的平均 

构成成分 

0. 004 

0. 006 

0. 003 

条件成分 

0. 056** 

0. 084 M 

0. 034 

百分比贡献 

构成成分 

6.0 

6.7 

7.5 

条件成分 

94. 

93.3** 

92.5** 


注: 分位数回归模型纳人了四个协变量 :种族 (黑人和白人）、教育(大学和非 
大学）、年龄和年龄平方。 

** 表示 P <0. 01。 

资料 来源: SIPP 。 

这10年间，以这三个不平等测量测得的收人不平等的 
增加统计上显著(见表 7. 2顶部的三行）。如果分位数回归 
模型被正确地设定 [17] ，那么此分解表明，协变量(种族、教育 
和生命周期)上的构成变化并未显著地对这三个不平等测量 
中的任意一个的整体变化产生影响。恰恰是条件分布(反映 
了收人的分类机制），几乎完全解释了日益增加的收人不 
平等。 
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第2节 | 小结 


本章介绍了将两个时点之间不平等的变化分解成协变 
量的构成变化和给定协变量情况下，反应变量条件分布的变 
化的方法。适用于一个分类变量的方法属于一种再加权方 
法，适用于一个连续协变量或多个协变量的方法属于一种使 
用分位数回归的基于模型的方法。这一趋势分解方法提高 
了我们对不平等随时间变化的来源进行分析的能力，并得到 
对社会机制更深刻的认识。下一章将应用本书所介绍的大 
部分分析工具，对1991年和2001年的收人和财富的不平等 
进行考察。 







章 


一个说明性的应用 
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第1节 I 美国收入和财富的不平等 
(1991—2001 年） 


本章使用 SIPP 数据，提供了一个对美国1991年和2001 
年家庭户收人和财富的不平等进行考察的真实例子。它是 
对前面各章所介绍工具的一次简要应用。我们的目的在于 
确定整个人口和不同社会群体的收人和财富不平等模式，以 
及这些模式在这10年间如何变化。由于收人和财富在家庭 
户内被共享，因此，我们以家庭户为分析单位。我们出于理 
论和方法论的目的来考察收人和财富。理论上来说，家庭户 
资源可被看成由收人所反映的流量和由财_所反映的存量。 
收人和财富之间的关系较为复杂。具体而言，投资收人和储 
蓄为影响这一关系的因素的例子。因此，同时对收人和财富 
的不平等进行考察，可以提供更完整的家庭户资源不平等的 
图景。方法论上来说，像收人研究文献中所做的那样，我们 
应用大部分工具对收人进行考察。在收人的例子中，我们关 
注正的收人取值，因为负收人和零收人家庭户的比例较小。 
但是，考察财富不平等需要一套不同的工具，因为资产净值 
(总资产减总负债）为负值和零值的比例较大。收人和财富 
之间的对比提醒我们，恰当工具的选择取决于所讨论的现 
象。 SIPP 同时收集了有关收人和财富的详细信息，这使它成 
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为适合本研究的一个恰当数据来源。 SIPP 使用多阶段整群 
分层抽样设计，同时被选人样本的家庭户具有不同的抽样权 
重。本例的分析考虑了抽样权重和调查抽样设计。我们用 
Stata 中的用户编写程序 ineqdeco 和 ineqdecO ( Jenkins , 
1999 )、 glcurveCVan Kerm Jenkins , 2001)、 reldist ( Jann , 
2008) 和 DASPCDuclos & Araar , 2006)( 见附录 4 表 A 3) 来 
完成分析。 
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第2节 I 描述性统计 


表 8.1 给出了分析中所用到变量的加权描述性统计。 
年收人通过将1991年和2001年中的'月家庭户总收入加总 
得到。我们只对取正数值的年收人进行分析，因此，排除了 
1991年的53个 (0. 25% ) 零收人家庭户、838个 (4. 02%)收人 
缺失家庭户（没有负数收入的家庭户）以及2001年的四个 
(0. 01%)负数收入家庭户和100个 （0. 35%)零收入家庭户 
(没有收人缺失的家庭户）。由于这些非正数值收人的家庭 
户所占的比例相对较小，所以，删除它们只会最小地影响收 
人不平等模式。相比而言，1991年时，1751个 （8. 4%)家庭 
户的资产净值为负数 .916 个 （4. 4%)家庭户的资产净值 
为0。2001年时，相应的数字为 3546( 12. 9%)和1158(4.2%), 
我们无法在不影响不平等模式的情况下，忽略总资产净值分 
布的这些部分。收人和资产净值都以200〗年不变的美元来 
表示，因此，它们在时间上是可以被比较的。表 8. 1第一行 
显示，收入和资产净值的均值从1991年到2001年一直在 
增加。 

社会结构在决定一个家庭户以收人和财富形式来表现 
的位置中起着重要作用。基于社会分层理论，我们找出了六 
个社会分组变量 :种族 或民族（白人、黑人、西班牙裔、其他）、 
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年龄组(年龄在45岁以上的户主对年轻户主）、受教育群体 
(高中以下、高中、大学肄业和大学或以上）、家庭户类型（已 
婚无子女、已婚有子女单身母亲、单身男子、单身女子和其 
他)、区域(东北部、中西部、南部和西部）以及家庭户环境(城 
市区或非城市区）。表 8. 1中的“比例”一列表明，这些社会 
群体的人口比例从1991年到2001年有所变化。我们看到， 
少数种族群体、高龄群体、高教育群体、未婚家庭户类型、南 
部居民和城市区居民在增加。我们随后会讨论社会分组的 
这些构成变化是否会对收人和财富不平等的变化产生影响， 
并关注这些影响的程度。 


表 8.1 总的和按社会群体划分的收入和 
财富的加权描述 统计: app ( 1991年和2001年) 




1991 



2001 


变量 

比例 

平均收入 
(美元） 

平均资产 
净值(美元） 

比例 

平均收人 
(美元） 

平均资产 
净值(美元） 

整体 

1.00 

47908 

118468 

1. 00 

51040 

173993 

种族/民族 

白人 

0. 80 

50609 

134857 

0. 75 

54168 

210377 

黑人 

0. 10 

32190 

35391 

0. 12 

35797 

45472 

西班牙裔 

0.07 

37144 

49368 

0. 09 

40998 

57905 

其他种族 

0.03 

52660 

120371 

0. 04 

61419 

151915 

年龄组 

年龄 <45 

0. 49 

49155 

61968 

0. 45 

52687 

83292 

年龄 >45 

0.51 

46717 

173087 

0. 55 

49699 

247818 

教育群体 

高中以下 

0. 23 

28728 

75755 

0. 14 

26541 

57946 

高中 

0. 35 

43406 

98923 

0, 30 

40387 

114691 

大学肄业 

0. 20 

50956 

114462 

0. 30 

48277 

140135 

大学或以上 

0. 22 

72514 

199006 

0. 26 

78964 

345826 

家庭户类型 

已婚无子女 

0. 23 

54859 

196067 

0.23 

59280 

282636 
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续表 


变量 


1991 



2001 


比例 

平均收人 
(美元） 

平均资产 
净值(美元) 

比例 

平均收人 
(美元） 

平均资产 
净值(美元） 

已婚有子女 

0. 33 

63561 

123768 

0.28 

72490 

207784 

单身母亲 

0. 10 

31483 

47476 

0.11 

32983 

50835 

单身男子 

0. 10 

33560 

75756 

0. 11 

34695 

149631 

单身女子 

0. 15 

23615 

87771 

0. 15 

23726 

112522 

其他 

0. 09 

48347 

85923 

0. 11 

50916 

91618 

区域 







东北部 

0.20 

51773 

144972 

0. 19 

55651 

185108 

中西部 

0. 26 

47149 

108245 

0.23 

51267 

154291 

南部 

0. 34 

42949 

93983 

0.37 

46314 

140224 

西部 

0. 20 

53192 

145834 

0.21 

54834 

243909 

城市区 







是 

0. 74 

51041 

123957 

0. 77 

54102 

190311 

否 

0.26 

39458 

102839 

0.23 

40761 

119213 

连续型协变量 







年龄 

48. 00 



49. 00 



受教育年数 12. 72 



13. 14 



家庭户规模 

2.39 



2.30 



样本量 N 

20838 



27398 




资料 来源: SIPP。 


“平均收人”列和“平均资产净值”列给出了每一个社会 
群体在1991年和2001年的平均数值。尽管除了三个群体之 
外，其他群体在这10年间，收人和资产净值有所增加，但似 
乎优势群体获益更多，包括白人、年长者、受最高教育者、已 
婚家庭户类型、单身男子家庭户和城市区居民。除了受最高 
教育者之外，所有教育群体的平均收人都随时间而下降。无 
高中文凭的那些家庭户的平均资产净值出现了一个较大差额 
的下降，而受过高中教育和大学肄业的那些家庭户则呈现出 
一个少量的上升。相比而言，大学和高等教育在这10年期间 
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导致了资产净值的最大提高。同时考察收人和资产净值会得 
到有关家庭户资源的更多洞见。 

尽管这些描述性统计是有益的，但它们并没有就整个人 
口的不平等给出一个明确的判断，因此，我们利用图形展示 
和概要不平等测量来考察观测的不平等模式。 
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第 3 节 I 观测的收入和财富的不平等 


图形展示有助于直观地显示整个分布。图 8. 1中左侧 
的三幅图提供了年收入的分位数函数、洛伦兹曲线和广义洛 
伦兹曲线，右侧的三幅图提供了资产净值的同一组图形。由 
Stata 中的 “ pctile ” 创建的分位数函数显示，收人和资产净值 
的2001年曲线从^70及以上开始偏离相应的1991年曲线。 
资产净值上的偏离大于收人的情况。这意味着，时间上的变 
化被集中在此分布的上部1/3。 

使用詹金斯和凡 • 克尔曼编写的 “ glcurve ” 程序 (Jenkms 
Van Kerm , 2004)，我们得到了 1991年和2001年的洛伦 
兹曲线和广义洛伦兹曲线。洛伦兹曲线以反应变量均值进 
行了标准化，从而排除了尺度改变。因此，我们用洛伦兹曲线 
来对这两年的分布之间的位置移动和形状改变进行比较。引 
起我们注意的第一件事是，资产净值的洛伦兹曲线和完全平 
等线之间的面积远远大于收人的情况，这表明，财富上的不平 
等比收人上的不平等更严重，这与文献中所提到的一致。第 
二，我们看到，收人和资产净值的2001年洛伦兹曲线都处在 
1991年相应的洛伦兹曲线下方，这意味着，2001年的收人或 
资产净值洛伦兹占优于1991年的收人或资产净值。我们以 
底部、中部和顶部敏感的不平等测量 ( G £_ 2 。、 G £, 和 G £；。， 这 
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0 0.10.20.30.40.50.60.70.80.9 1 °0 0.10.20.30.40.50.60.70.80.9 1 

P P 


|_—— 1991 - 200 l ] | - 1991 ----20011 

Ca ) 分位数函数 




| —— 1991 ——2001 -…完全平等1 | —— 1991 —— 2001 完全平辜] 

( b ) 洛伦兹曲线 




累积人口比例 累积人口比例 

| —— 1991 —— 2001 1 | —— 1991 2001 1 

(C) 广义洛伦兹曲线 

图 8.1 加权的收入和财富分布的图形展示： 

分位数函数、洛伦兹曲线和广义洛伦兹曲线 


收入 


资产净值 





I 评估不平 It 


里未显示结果)对1991年和2001年的洛伦兹占优做了一个 
正式检验，证明2001年收人分布洛伦兹占优于1991年收入 
分布。不过，对资产净值做此类正式检验并不那么简单直 
接，因为底部敏感的不平等测量并不能被用于资产净值的负 
数值。我们对正数值部分的差异使用 G £, 和 G £ 2 。，证明 
2001年资产净值分布的正数值部分占优于1991年的相应 
情况。 

广义洛伦兹曲线通过将洛伦兹曲线乘以平均收人或财 
富而得到。7轴的重新尺度化提醒我们，尽管收人和财富的 
不平等从1991年到2001年有所增加，但因收人和财富而带 
来的福利在同时期却有所改善。 

除了图形展示，还可以计算精确的概要不平等测量。我 
们挑选一套能够提供补充信息来形成更完整的不平等图景 
的测量。我们使用杜克罗斯和阿拉尔编写的 DASP 程序来 
得到1991年和2001年时加权的收人和财富的不平等测量， 
也可以对收人和财富分别使用詹金斯编写的 “ ineqdeco ” 和 
“ ineqdecO ” 作为替代 ( Jenkins ， 1999)。每一年的结果以及它 
们的绝对和相对差异呈现在表 8. 2中，顶部为收人的情况， 
底部为资产净值的 情况。 

我们先考察收人不平等。从分位数比开始，因为它具有 
计算简单且易于解释的优点。00//»50(第十个百分位数与 
中位数之比)描述了分布下半部的大部分，而 /-90/ P 50 则描 
述了上半部的大部分。下降的舛0/^0和上升的 pBO/pbO 
共同反映了收人不平等的日益加重。收人上众数处敏感的 
基尼系数的增加证实了分布的中部存在更大的收人不平等。 
我们用到了广义熵敏感参数的四个取值（一 1、0、1和2)。 
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随着每一个参数的取值的增大，敏感性从分布的底部移到了 
顶部。全部四个广义熵测量从1991年到2001年，均呈现出 
增加的趋势，其中一个增加集中在两端而不是中部。底部敏 
感的 Gf ：-, 呈现出几乎200%的增加，顶部敏感的 G £ 2 呈现出 
超过50%的增加。这些测量提供了与图 8. 1中的分位数函 
数并未反映出来的收入分布底端尾部变化有关的额外信息。 
指数的阿特金森族提供了一个不平等厌恶视角。随着厌恶 
变得更强烈，收人不平等的水平和变化也变得更高和更大， 
但百分比变化并不如此。 


表 8.2 加权的收入和财富的不平等 测置: SIPP ( 1991年和2001年) 


测 量 

1991 

2001 

变化 

百分比变化 

收人 

pl 0//>50 

0. 290 

0.286 

-0. 004 

-1. 38 

p 90/ p 50 

2.294 

2.494 

0.200 

8.72 

基尼 

0. 382 

0.422 

0. 039 

10.21 

GE-i 

1.288 

3.859 

2.571 

199. 61 

GE 0 

0. 284 

0.346 

0.061 

21.48 

GE } 

0. 240 

0. 308 

0. 068 

28.33 

ge 2 

0. 265 

0.404 

0. 139 

52. 45 

Ao . 5 

0. 121 

0. 148 

0. 027 

22.31 

Aj 

0. 247 

0.292 

0. 045 

18.22 

A .2 

0. 720 

0. 885 

0. 165 

22.92 

资产净值 
p 7 S / p 25 

26. 464 

46. 224 

19. 760 

74. 67 

p 90 /poO 

6. 715 

7.421 

0. 706 

10.51 

下半部分 / 顶部 
5%的份额比 

0. 124 

0. 045 

-0. 080 

-64. 52 

基尼 

0. 694 

0.763 

0.069 

9.94 

GE Z 

1.455 

40. 970 

39.515 

2715.81 


资料 来源: SIPP。 
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我们现在转向对资产净值的研究。因为资产净值可以 
取负值，因此，选择哪些分位数应用来构造比值就需要谨慎， 
以避免出现负的分位数比，其原因仅仅是这些比值难以解 
释。比值/>75//>25反映了中间50%的人口之间的资产净值 
不平等。这一人口的中间一半的财富不平等已经较大，且它 
在此10年期间大大增加。》90//>50在7附近，时间相对稳 
定，这与上面洛伦兹曲线的比较共同表明，富裕恰好存在于 
第90个百分位数处。我们进一步考察底部50%对顶部5% 
的份额比。如果将整个人口的财富看做一块饼(资产净值的 
正数值和负数值之和），下半部分的人口比顶部5%的人口拥 
有一块小得多的饼，因为1991年时，它们的比值只为 0. 124, 
2001年时，进一步下降至 0. 045。尽管资产净值的基尼系数 
比收人的基尼系数大得多，但收人基尼系数和资产净值基尼 
系数的增长率相似，约为10%。总的来说，表 8. 2中选取的 
不平等测量表明，收人和财富的不平等在这10年间都增加 
了。不过，这些结果是否统计显著，需要看我们后面将要进 
行的假设检验。 

在六个社会分组变量中，组平均差异如何促成总的不平 
等？哪个分布变量的贡献更大？这些群体贡献会随时间而 
变化吗？我们用组分解工具来回答这些问题，这里集中关注 
基尼系数和四个不同敏感性参数的广义熵 GE 。 组间成分被 
定义为每一群体中的成员具有与该群体的平均财富相等的 
财富取值，而非群体成员具有不同的财富取值情况下的群体 
间不平等。我们注意到，除了反映组平均差异之外，组分解 
将被分解成这一计算，也就是说，相对群体规模会有影响。 
我们用 DASP 程序得到了表 8. 3中所示的结果。以种族或 
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民族分组为例，从顶部的收入情况看，组间部分对基尼系数 
贡献了 13.42%，对（；£- 1 贡献得非常少，而对0£_ 1 、0£ 1 和 
GE 2 贡献了约4%。种族或民族的这些贡献在这10年间极 
其稳定。应当记住的是，尽管广义熵族是加和可分解的，但 
基尼系数不是。我们看到，种族或民族对基尼系数的贡献较 
大，且它在这10年间略有增加。通过考察不同的分组变量， 
我们会看到两种模式。第一，六个分组变量中，教育群体和 
家庭户类型的组间成分是总收入不平等的最大促成因素。 
第二，这些组间成分的贡献在此10年间变化适中。 

但是，资产净值上出现了不同模式（表 8. 3的底部）。反 
映财富积累上生命周期差异的年龄分组与教育群体和家庭 
户类型一起，对总财富不平等有更大的贡献。根据加和可分 
解性，各组间成分对 G £ 2 的递减贡献意味着，低端尾部的组 
间变异在2001年比在1991年起着更大的作用。相反，根据 
非加和可分解性，各组间成分(有一个例外)对基尼系数的递 
增贡献表明，组平均差异对2001年时的中间部分比1991年 
时起着更重要的作用。 

家庭户会有各种各样的财富投资组合。我们关注三个 
类别——房产净值(房产价值减去抵押）、金融资产净值(个 
人退休金账户、银行账户、股票、公募基金等减去抵押品）以 
及房地产净值、贷借净值和医疗债务等其他资产净值。我们 
用 DASP 程序对基尼系数进行了按来源的分解。表 8. 4显 
示，金融资产净值对总的基尼系数做了最大的百分比贡献， 
这一贡献从1991年到2001年有所下降。“其他”类在1991 
年作出了一个负的百分比贡献，意味着该类中的负债超过了 
资产。这在2001年时是正的。 



168 


I 评怙不平等 


表 8. 3组间成分对收入和财富不平等的加权百分比 贡献: 
SIPP (1991 年和2001 年） 



种族 

年龄 

教育 

家庭户类型 

区域 

农村 

收人 （1991 年） 







基尼 

13. 42 

3.41 

44. 27 

45. 16 

12. 18 

12. 39 

G£-i 

0.85 

0. 03 

3. 73 

5.01 

0. 27 

0. 48 

GEo 

3. 68 

0. 12 

17. 08 

20. 77 

1. 29 

2. 19 

GEi 

3. 95 

0. 15 

19. 90 

21. 99 

1. 52 

2.48 

ge 2 

3.25 

0. 13 

18. 19 

18.26 

1. 37 

2. 14 

收入 (2001 年〉 







基尼 

14. 85 

3. 63 

44. 24 

46. 62 

9. 81 

10.91 

GE-i 

0. 32 

0.01 

1. 66 

2.21 

0, 08 

0. 18 

GEo 

3. 31 

0. 14 

17.50 

21. 18 

0. 84 

1. 93 

GEi 

3. 48 

0. 15 

19. 38 

21. 38 

0. 94 

2.05 

GE Z 

2.51 

0. 12 

15. 15 

15. 26 

0. 71 

1. 48 

资产净值 (1991 年） 







基尼 

16. 22 

33. 41 

27.07 

31.46 

14. 63 

5. 35 

ge 2 

3.07 

7.45 

4. 76 

5. 59 

1. 26 

0.21 

资产净值 (2001 年） 







基尼 

21. 21 

30.64 

39.61 

33.05 

15. 43 

9.46 

GE Z 

0. 17 

0. 27 

0. 44 

0. 24 

0. 06 

0. 04 


资料 来源: SIPP . 


表 8. 4来源类别对资产净值基尼系数的加权百分比 贡献: 
SIPP (1991 年和2001 年> 


类 别 1991 2001 


房产净值 

0. 38 

0. 31 

金融资产净值 

0. 79 

0. 59 

其 他 

-0. 18 

0. 10 


资料 来源: SIPP 。 
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第4节 | 检验收入和财富不平等的 
变动趋势 


针对整个人口和总的不平等测量的群体或来源分解，我 
们已经讨论过观测到的各种收人和财富不平等测量的模式。 
我们现在来考虑对这些测量的趋势的显著性进行检验，涉及 
对它们的时间变化的推断。如第6章中所讨论的，当样本规 
模较大（比如，大于 1000) 时，渐近方法适合用来确定大多数 
概要不平等测量在简单随机抽样情况下的近似抽样分布。 
然而，各种调查经常涉及必须在渐近方法中加以考虑的复杂 
抽样设计。对一套普遍使用的概要不平等测量，我们用 
DASP 软件包来进行此分析。 

表 8. 5显示了对与表 8. 2中相同的一套不平等测量的 
时间变化进行检验的结果。我们给出了每一个测量的变化、 
户值和 95%置信区间。我们注意到，表中所有的收人不平等 
测量的变换都在 0. 01水平上显著，除了收人的^10/妁0比 
值上的变化和资产净值的 G £ 2 上的变化统计不显著之外。 
换言之，/>10/^50收人比值上估计的最小下降（一 0. 004) 可 
忽略不计，而资产净值的 G £ 2 上的变化 (39. 515) 在量上看似 
很大，但却是抽样变异的结果。这两个并不具有显著变化的 
测量，之后将被进一步分析。然而，我们有证据表明，收人不 
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平等和财富不平等从1991年到2001年都在增加，而且，当我 
们集中关注中部(收人的沖0//)50、基尼、 G £。 和 GE 以及资 
产净值的妁0/妁0和基尼）、底端（收人的 G £^ 和资产净值 
的上半部对顶部5%的份额比）以及顶端（收人的 G £ 2 和资 
产净值的上半部对顶部5%的份额比)时,这是正确的。 


表 8. 5对收入和资产净值从1991年到2001年出现变化的检验 


测量 

变化 

P 值 

LB 

UB 

收人 

/>10//>50 

-0. 004 

0. 533 

— 0. 016 

0. 008 

p 90/ p 50 

0. 200 

0. 000 

0. 138 

0. 263 

基尼 

0.039 

0. 000 

0. 033 

0. 046 

GE-i 

2. 571 

0. 008 

0. 706 

4. 437 

GEo 

0.061 

0. 000 

0. 050 

0. 073 

GE , 

0.068 

0. 000 

0. 057 

0. 079 

ge 2 

0. 139 

0. ⑻0 

0. 116 

0. 161 

- Ao .5 

0. 027 

0. 000 

0. 022 

0. 031 

Ai 

0. 045 

0. 000 

0. 036 

0. 054 

Az 

0, 165 

0. 003 

0. 058 

0. 272 

资产净值 
户 75/ p 25 

19.760 

0. 000 

23. 367 

29. 562 

户 90/ p 50 

0. 706 

0. 000 

6.419 

7. 011 

下半部分/顶部 

5%的份额比 

— 0. 080 

0. 000 

— 0. 106 

一 0. 053 

基尼 

0. 069 

0. 000 

0. 040 

0. 098 

GE Z 

39.515 

0. 000 

-19. 803 

98. 832 


注: LB 和 UB 代表95%置信区间的下限和上限。 
资料来源: S 1 PP 。 


在上面考察的各社会群体之间，教育群体的组间成分对 
这些中部和两端敏感的收入和财富不平等的测量具有相对 
较大的贡献(表 8. 3) 。我们现在来进一步考察教育分组变量 
的组内成分。大量文献证实，大学教育一直是自20世纪80 



第 8 章_个说明性的应用 


171 


年代以来，日益增加的社会不平等的一个重要来源 （ Bern ¬ 
hardt , Morris , Handcock S - Scott , 2001 ； Card DiNardo , 
2002 ； Coldin Katz , 2007 ； Grogger &- Eide , 1995)。 但是， 
教育分布对收人和财富分布的形状的影响仍很难理解。由 
于这一问题可以归结为一个关于两个教育群体之间收人或 
财富上的形状改变的问题，因此，我们利用相对分布方法。 
具体而言，我们用中位数相对极化 （ MRP ) 及其成分（下部和 
上部极化)来研究这个问题。我们的问题是，大学教育是否 
以及如何对收人和财富极化的这些测量从1991年到2001 
年的水平和变化产生影响？出于对这些测量进行推断的考 
虑，我们使用更为灵活的自举方法，因为这些估计量的渐近 
性质是未知的。我们在自举方法中也考虑了复杂调查抽样。 
我们用本 • 詹恩编写的 “ reldist ” 来进行这一对相对极化的 
分析。 

相对分布分析分别针对每一年的收入来进行。由于相对 
分布方法可被应用于任何不要求正数取值的分布，所以，我们 
能够对资产净值做同样的分析。我们将大学教育作为比较 
组，无大学教育作为参照组。既然我们的问题是关于形状改 
变的，所以，“ reldist ” 首先以大学教育组来调整无大学教育组 
的中位数，从而消除中位数差异的影响。然后， “ reldist ” 进行 
等级转换以得到调整中位数的相对数据，根据这些数据来计 
算 MRP 及其成分——底部相对极化 ( LRP ) 和顶部相对极化 
( URP )， 可以得到 MRP 、 LRP 和 URP 的自举法标准误，以对 
SIPP 调查设计中的聚群和分层加以考虑。本分析使用200次 
自举重复。为了构建表 8. 6,我们采用1991年和2001年加权 
MRP 、 LRP 和 URP 以及自举法标准误，这些由 “ reldist ” 来得 
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到。第一步，我们对每一年的 MRP 、 LRP 和 URP 建构一个 
95% 置信区间 :95%CI =加权估计值± 1. 96 X BSE 。 第二步， 
我们将 2001 年的加权 MRP 、 LRP 和 URP 减去 1991 年对应 
的值，得到这两年之间的变化。第三步，我们用 

v / BSE ; 刚 + BSI 4, 来计算该变化的标准误（假定这两年的 
极化测量无关）。 

顶部呈现了针对收人的结果。1991年, MRP 为0.2583, 
这意味着与无大学教育组相比，大学教育组中的 25. 83%相 
对更加极化。 LRP 比 URP 更大表明，与无大学教育组相比， 
大学教育组中的下半部分比上半部分更加分散。具体而言， 
大学教育组中的 16. 22% (32. 43%/2)已从中位数处进一步 
朝左边移动，而其中 9. 62%(19, 23%/2)已从中位数处进一 
步朝右边移动。应当指出，我们现在关注的是形状差异，且 
中位数差异已被消除了。正如自举法标准误和95%置信区 
间所显示的，所有三个极化测量都显著地区别于0。 

这两个教育组之间的相对收人极化测量从1991年到 
2001年都大大增加。具体而言， LRP 增加了 27% 
(0. 0882/0. 3243 = 0. 27 )，MPR 增加了 23%，而 URP 增加了 
16%，这表明，无大学教育组的下半部分在收人分布上有一 
个更严重的缩减。三个变化都在 0. 01水平上统计显著。 

表 8. 6的底部呈现了针对收人的结果。毫不奇怪的是， 
根据教育得到的财富的中位数相对极化要比收入的情况更 
为严重。与无大学教育组相比，大学教育组中约 47. 10% 朝 
分布的两个尾部移动。无大学教育组分布下半部分的这一 
集中为此差异的主要来源。尽管2001年时财富的相对极化 
在加深，正如收入相对极化的情况一样，但是，相对于 MRP 
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上17%的增量和 LRP 上14%的增量，其上半部分的变化率 
更大(25%的增量）。因此，富裕的大学教育组在此10年期 
间变得日益富裕。这些变化在 0.01 水平上统计显著。 


表 8. 6对以大学教育划分的加权相对极化自1991年到2001年变化的检验 


测 量 

估计值 

BSE 

LB 

UB 

收人 （1991 年） 





MRP 

0. 2583 

0. 0084 

0. 2419 

0. 2748 

LRP 

0. 3243 

0.0134 

0. 2980 

0. 3506 

URP 

0. 1923 

0.0101 

0. 1726 

0.2121 

收人 (2001 年） 





MRP 

0. 3175 

0. 0070 

0. 3038 

0. 3311 

LRP 

0.4125 

0.0190 

0.3912 

0. 4338 

URP 

0. 2224 

0. 0084 

0. 2059 

0 . 2390 

变化 





MRP 

0.0592** 

0.0109 



LRP 

0. 0882，* 

0.0172 



URP 

0. 0301** 

0.0131 



资产净值 (1991 年） 





MRP 

0.4710 

0.0111 

0. 4494 

0. 4927 

LRP 

0. 6592 

0. 0205 

0. 6190 

0. 6994 

URP 

0. 2829 

0. 0094 

0. 2644 

0. 3013 

资产净值 (2001 年） 





MRP 

0. 5529 

0. 0056 

0. 5419 

0. 5640 

LRP 

0. 7516 

0. 0098 

0. 7324 

0. 7708 

URP 

0. 3543 

0. 0070 

0. 3406 

0. 3679 

变化 





MRP 

0. 0819 

0.0124 



LRP 

0. 0924 

0. 0227 



URP 

0. 0714 

0. 0117 




注: BSE : 自举法标 准误; LRP : 下部相对 极化; MRP : 中位数相对 极化; URP : 

上部相对极化。 LB 和 UB 代表95%置信区间的下限和上限。 

*• 表示/><0.01。 

资料 来源: SIPP 。 
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第5节 I 分解收入和财富不平等的 
变动趋势 


上一节的结果证实，收入和财富的许多不平等测量在此 
10年期间显著不同。收人不平等由分类机制(社会结构或者 
运气)和人口特征的构成决定。在分类机制不变的情况下， 
种族或民族、年龄、教育、家庭户类型和其他特征的变化会改 
变收入和财富的不平等。同样，在这些特征构成不变的情况 
下，分类机制上的变化也会改变不平等的图景。因此，下一 
个必然的问题就是，如何量化这两个成分的相对贡献？ 

使用一个预测变量来考察某一时间的不平等是有问题 
的，因为存在一个以上的总体协变量，同时，这些协变量是相 
互相关的。比如，黑人更可能是低教育的、生活在单身母亲 
家庭户中或者西部。因此，需要一个多元回归分析框架。当 
我们要对整个分布进行考察和趋势分解时，分位数回归比线 
性回归更具优势。我们将马沙杜和玛塔的方法应用于收人 
和资产净值的不平等趋势分解。我们的 QRM 设定纳入了 
16个协变量 :代表 种族或民族的三个虚拟变量、年龄和年龄 
的平方、受教育年数、代表六类家庭户的五个虚拟变量、家庭 
户规模、代表区域的三个虚拟变量以及城市地区。 

以收人为例，我们执行了以下 程序： 
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程序 A : 分别对1991年和2001年模拟基于分位数回归 
的收入边缘分布。 

(1) 从均匀分布[/(0, 1) 中随机地选取一个 U 。 

(2) 用1991年的数据估计第[/个分位数回归模型。[ 18] 

(3) 从1991年的数据中选取一个规模为40的自举法样 
本，并得到基于分位数回归模型估计值的预测收人。 

(4) 将步骤 (1) 到步骤 (3) 重复500次。 

(5) 将预测的收人值放在一起，得到一个基于分位数回 
归模型(针对500个不同分位数)的1991年收人边缘分布的 
随机样本，样本规模为500 X 40 = 20000。 

(6) 重复步骤 (1) 到步骤 (5), 用2001年的数据减去1991 
年的数据。 

程序 B : 用2001年的分位数回归模型系数和1991年的 
协变量数据模拟反事实收人边缘分布（反事实顺序1)。用 
1991年的分位数回归模型系数和2001年的协变量数据模拟 
相反顺序的反事实收人边缘分布(反事实顺序2)。 

根据1991年的边缘分布和2001年的边缘分布，我们得 
到某一不平等测量的整体变化(表 8. 7第三行）。对于每一 
个反事实顺序，我们用第7章中介绍过的方法(见方程 7. 2) 
来得到一个不平等测量的构成成分和条件成分。对每一个 
反事实顺序的记录求平均值，我们得到构成成分和条件成分 
的最终结果(表 8. 7的最后两行)。 

在表 8. 7中，基于边缘分布(根据分位数回归模型得到） 
的 p 90/ p 50 在这10年期间从 2.115 增加到 2. 287,这表明富 
人越来越富裕。两个成分的估计值在两个反事实排序之间 
不同。分解结果显示，协变量构成上的变化对第90个百分 
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位数的收人相比于中位数收入并无显著影响。因此，在给定 
纳人模型中协变量的情况下，条件分布解释了较低/ >90/^0 
比值的 110.4 %。 换言之，分类机制完全解释了以 {10/P50 
比值所测量的日益增加的不平等。 

回到基尼、泰尔和 GE 2 ，根据它们的平均值，我们看到， 
条件分布在给定协变量的情况下，促使这10年间的收人不 
平等增加。 G £ m 估计值的变异较高，因此，这些结果在统计 
上都不显著(底部敏感测量的这一更大变异在第6章中讨论 
过，见蒙特卡洛结果）。 G£ 。、 八 2 和八， 呈现出更加引人注目 
的模式。协变量构成上的变化显著地减少了这些指数所测 
量的收人不平等，而条件分布上的变化则增加了不平等，其 
中，导致的增量为 162%.A r2 导致的增量为 138.8 %，八 
导致的增量为 161.5%, A 2 的估计值很精确.因此，我们没 
有对这些显著的结果加以考察。总的来看，表 8 . 7 表明，协 
变量构成对日益增加的不平等并无影响，同时，对于九个指 
数中的三个，它们还可以减少不平等。相比而言，在给定协 
变量的情况下，由社会结构赋予的分类机制的条件分布考察 
的九个指数中的七个，都对日益增加的不平等有影响。 

资产净值的分位数回归模型纳人了与收人分位数回归模 
型中相同的 16 个协变量。资产净值的分布是高度非正态的， 
因为较大比例的家庭户具有负值或零值。分位数回归模型具 
有拟合资产净值这种非正态分布数据的灵活性。资产净值的 
分位数回归模型的拟合优度比针对收人而得到的情况更低。 
拟合优度随着分位数而增加，在 0. 01到 0. 21的范围内变化。 
我们用程序 A 和程序 B (如前所述）来分析以/ >90//>50 比值 
和基尼系数所测量的资产净值变动趋势。表 8. 8反映出，此 
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反事实顺序 2: F (： y 1; C ' 2 ) 

构成成分 


反事实顺序 1 和 2 的平均 
构成成分 




m 

k 

<〔< 

2001 年实 际的 ： F (力; 

整体变化 

反事实顺序 1: F (； v 2 ; 
构成成分 

条件成分 

条件成分 

条件成分 

西分比贾献 
构成成分 
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io 年间的整体财富不平等在增加。两种反事实的排序都强 
调给定协变量情况下的条件分布比协变量构成更重要。协 
变量构成上的变化降低了沖0//»50比值，对基尼系数也没有 
显著影响。相比而言，财富分类机制上的变化使/>90/妁0比 
值增加了 152%、基尼系数增加了 107.3%。这些发现与收 
人不平等中的那些发现相吻合。因此，对于收人和财富，日 
益增加的不平等的主要推动力为资源在不同社会群体间越 
来越不平等的分配。 


表 8. 8基于模型将财富变动趋势分解为构成和条件 成分: 
SIPP (1991 年和2001 年） 


分 解 

p 90/ p 50 

G 

1991年实 际的： C !) 

5. 389 

0. 678 

2001 年实 际的： y 2; C 2 ) 

6. 801 

0. 867 

整体变化 

1. 413** 

0. 189“ 

反事实顺序 l -. F (. y 2； CO 

构成成分 

— 0. 586 

-0. 007 

条件成分 

1. 998 

0. 196“ 

反事实顺序 2 :f (: y 1; C 2 ) 

构成成分 

一 0. 884* 

—0. 021* 

条件成分 

2. 296“ 

0. 210** 

反事实顺序1和2的平均 

构成成分 

-0. 735* 

-0. 014 

条件成分 

2. 147** 

0. 203 ” 

百分比贡献 

构成成分 

-52. 0* 

-7.3 

条件成分 

152. 0** 

107. 3 “ 


注:& 位数回归模型纳人了 16个协变量(具体见正文）。 
* 表亦 户 0. 05 ， ’* 表 0. 01。 

资料 来源: SIPP 。 
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本章使用取自1991年和2001年美国家庭户全国代表 
性样本的数据，提供了一个对收人和财富不平等的说明性考 
察。收人和财富是家庭户资源的两个支柱，同时它们又相互 
促进。我们对收人和财富不平等的考察揭示出，收人和财富 
的大多数不平等测量从1991年到2001年都存在一个显著 
的大幅度增加。分析进一步揭示，在根据收人和财富的分 
布，将家庭户归类到不同位置这点上，教育群体和家庭户类 
型是比种族或民族更加重要的社会分组方式。具体而言，相 
比于无大学教育组，大学教育组2001年的收人和财富不平 
等比1991年时的更加极化。相比而言，无大学教育组在下 
半部的集中反映出低技能者收人和财富的停滞不前。最后， 
根据对趋势的分解，本例发现,增加收人和财富不平等的主 
要推动力为更不平等的分配体系，而不是社会群体构成上的 
变化。 

本例运用了本书所介绍的大多数方法论工具来回答与 
整体人口和按社会群体区分的收人和财富不平等有关的核 
心问题。这些工具作为一个整体，提供了对不平等进行系统 
考察的方法。我们现在知道，如何直观地展示不平等测量， 
如何选取有限的不平等测量来强调分布的不同部分或者与 
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反应变量有关的不平等厌恶水平，如何检验与变化趋势有关 
的假设，如何根据各组群和来源分解总不平等，以及如何将 
趋势分解成构成和分布成分。不平等测量的四个原则和洛 
伦兹占优提供了对跨时间模式或组间模式进行比较的指导 
原则。分位数函数和洛伦兹曲线之间的关系有助于将概要 
不平等测量、基于分位数的测量和基于相对分布的测量的位 
置改变与形状改变区分开来。分位数回归模型可以对趋势 
变化进行基于模型的分解，并确定什么是导致收人和财富不 
平等增加的动力。 

我们的例子也说明，在对包含许多负数和零值的反应变 
量进行处理时，我们在适用的工具类别上会面临更多限制。 
正如我们在资产净值的例子中所展示的，对这个变量需要更 
加谨慎。我们以同时具有理论和方法论意义的说明性举例 
来结束本章和全书。我们希望本书在获取更多与社会不平 
等的模式、来源和后果有关的知识并从事这些研究方面对读 
者会有帮助。 



附录 
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附录1 I 位置改变导致洛伦兹 
曲线变化 


本附录给出位置改变导致洛伦兹曲线变化的证明 。一 
个误解就是，概要不平等测量只描述分布的离散度或形状， 
因此，当我们对两个分布进行比较时，只有离散度或形状上 
的变化才要紧。因为洛伦兹曲线是统一诸多不平等测量的 
一个共同基础，所以，我们认为这一证明对于增进我们对不 
平等测量的理解是必要的。 

只要存在一定的不平等，最低为 s 的工资所得者的平均 
收入就小于所有工资所得者的平均收人。因此， 

t n 

t=l 1=1 

这意味着 ®， 

s n 

i=l i =1 

最后，两边同时加上并进行因式分解 

i = 1 i = l 

得到： 


①注意，这里假定 a >0。——译者注 



(«« + 2 

J = 1 

因 此有： 

L* (s/n )= - 


^(0 < (^+ 2^(0 ) 2 


凡） 




C" ^+,«>) S ： 


yi 


此方程略有改动。——译者注 
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附录2 


表 A 1 选取的概要不平等测置 


名 称 

公 

式 

与概率分布相联系 



的测量 



极差 

K _ .v'max .Vrr：in 


方差 

; •- 1 


变异系数 

r _ yv 


对数方差 

f + $卜(爹 ))' = 

丄 ^]( log ： y , ― \ o ^ y) 2 

71 ，- 1 

对数的方差 

。=+自( |08 (乒))、 

— (log (: v., ) — log ( jy ) ) 2 
n ，-] 

基于分位数函数和洛 
伦兹曲线的测量 
分位数比 
份额测量 

Qf / Qt ; . 对于 pi-p 


底部分位数区 

L ( p ) 


中部分位数區 

Upu ) — L ( Pl ) 


顷部分位数区 

1 - L(l - p ) 


基尼系数 

2 1 _ y ，- ： y ; 1 

n (n — 1 >jy 


基于社会福利函数 



的测量 



阿特金森指数 

[+|(f 广 
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续表 


名 

称 

公 式 

基于信息理论的 
测量 


泰尔指数 


谢卜(爹)] 

广义熵 

GE e 

J ] 
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附录3 


表 A 2 不平等测 


不平等测量 转移原则 


与概率分布有关的 

极差 R 不适用 

方差 V 强 

变异系数 r 弱 

对数方差 u 不适用 

对数的方差 m 不适用 

基于分位数函数和洛伦兹曲线的 
分位数比 不适用 

分位数区间份额 不适用 

基尼系数 G 弱 

由社会福利函数推导的 
阿特金森指数4 弱 

由信息理论发展出的 
广义熵 G 心 强 



否 是否否 

否 是是否 

是 是是否 

是 是否否 

是 是否否 

否 是否否 

是 是否否 

是 是否是 

是 '是 否 是 

是 是是否 
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表 A3 State 中用于研究不平等 测置的 程序和软件包 


- glcurve - 

凡， 克尔曼和詹金斯 (2001) 

- inequal 7- 

凡 • 克尔曼 (2001) 

- ineqdeco -, - ineqdecO — 

詹金斯 （1999) 

- reldist - 

詹恩 (2008) 

DASP 里的各种命令 

杜克罗斯和阿拉尔 (2006) 
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注释 

[ 1 ] 一些人将峰态减去3,从而使得取值都分布在0的周围。 

[ 2] 如果 Y 是随机变量， 3 和 c 是常数，那么，随机变量^ = a + C y 被定义 
为 y 的线性转换。 

[3] 这里，: y , 被假定为非负的。 

[4] 为了明白这点，我们有 ：+客 (1.53；,-1.550 2 = 1.5 2 . + 自 ( y -50 2 
=1. 5 2 V 。 

[ 5 ] 以 5 0%增量为例，我 们有： 



[ 6 ] 对于: y , > 0,几何均值被定义为 (!]；>,) , 这等价于几何均 
值总是小于或等于算术均值。收入 S 几何均值的对数就是对数收人的 
均值。 

m 利用罗必达法则，我们看到， iim t _. 1 ( y -- i )/( i- e )^^cy 1)/ 

■ T"(l — e ) = log ( jy)o 

ae 

[ 8 ] 当 p = 0 时， p 的对数未被定义，但是，我们可以将^0时 plog ( p ) 的极 
限定义为0,且函数 plog ( p ) 是连续的。 

[9] 如果连接一对点的任意线段都位于那两点之间函数的线性内插值点线 
段上方，那么，若干变量的函数/(^，…， ： rj 被认为是凹性的。形式 
上，对于所有选取的 (A , •**, x „) , ( y , ，…，: y „) 及取值范围在0到1之 
间的 X ，我们 都有： 

/( 又 (J! ，…， _T„) + (1 - AM )、 ， "•，％)) 

^ A/(xi , *•*. x„) -(- ( 1 —A)f(y,, ••*, y n ) 

[10] 方程 3. 8 a 和方程 3. 8 b 之间的中间步骤如下： 

T =~ 2 J _ i og ^_ L \ + 2 5 , log ( 5l ) =- log (+)+ t ' logU ) 

,i n \ n / 1 = 1 \ n / i=l 

=—log(+ ) + 自 5,logU) = [iog(S,) — lo S(+ ) j 

[11] 勒曼和伊达沙基以要素来分解基尼系数 (Lerman & Yitzhaki , 1984)。 
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分解方程为乘积形式。根据分解，他们得到基尼系数的- •个要 素的边 
际效应1%的增量。洛佩兹-费德曼在 Stata 程序 “ descogini ” 中实现了 
勒曼和伊达沙基方法 （ Lopez - Feldman , 2006)。使用这一程序，我们发 
现，1991年时资产公平1%的增量将使得基尼系数减少 5. 7 K ， 2001 
年时，这一效应将更强 (7. 4 K )。 

[12] 对于 m 个分布，成对比较的数量就是— 1)/2。当我们对两年中的 
收人分布进行比较时，尽管成对比较的数量只为1,但当我们对10年 
的收人分布进行比较时，这个数值增加到45。 

[13] 一般性的保测变换可被视为是通过将单位区间 [0. 1] 分割成任意段然 
后将这些段打乱所界定的一种变换。 

[14= 这一蒙特卡洛实验的全部结果可在本书的网站上找到^ 

[15] 对于约等于1的分析性权重 . Stata 以加总数据中的观测数内在地将它 
们重新尺度化.所得的群体比例被改变成与其他年份的相似= 

[16] 我们设定了-■个不含交互项的加和模型。此模型过于简笮，因为它假 
定，没有协变凿会通过任何其他协变 量影响 I 

[17] 仅仅出于示例说明的考虑，我们在这里使用了一个简单设定„更为真 
实的例子可在第8章中找到。 

[18] 在《分位数回归模型》一书中 （Hao ?>. Naiman , 2007), 我们讨论了拟合 
的第 P 个分位数回归模型的拟合优度测 M ， 记为这里.我们注 
意到.对于拟合的分位数回归模型 . plo 处的 K 为 0. 1543, P90 处的 R 
为 0.25^ 这表明，相对于低端尾部，模型解释了顶端尾部的更多变 
异。所有估计系数都具有预期的方向且大多数协变都是统计显著的 3 
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additive decomposition 

加和分解 

asymptotic approach 

渐近方法 

Asymptotic Standard Errors (ASE) 

渐近标准误 

Atkinson family of inequality indices 

阿特金森族不平等指数 

bandwidth» of an estimator 

估计量的带宽 

bootstrap approach 

自举方法 

Bootstrap Standard Error (BSE) 

自举法标准误 

CDF (Cumulative Distribution Functions) 

累积分布函数 

central moments 

中心矩 

coefficient of variation 

变异系数 

counterfactual decomposition method 

反事实分解方法 

DASP(Distributivc Analysis Stata Program) 

分布分析的 Stata 程序 

entropy 

熵 

Gaussian distribution 

高斯分布 

generalized entropy 

广义熵 

generalized Lorenz curves 

广义洛伦兹曲线 

geometric mean 

几何均值 

Gini coefficient 

基尼系数 

Gini index 

基尼指数 

grade transformation 

等级转换 

inequality aversion parameter 

不平等厌恶参数 

information entropy 

信息熵 

interactive decomposition 

交互分解 

Kullback-Leibler divergence 

库尔贝克-莱伯勒距离 

kurtosis 

峰态 

location shift 

位置改变 

logarithmic variance 

对数的方差 

logarithm of variance 

方差对数 
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洛伦兹一致 

Lorenz curves 

洛伦兹曲线 

Lorenz dominance 

洛伦兹占优 
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洛伦兹交叉 
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保测函数 
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median-adjusted data 
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距 
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中位数相对极化 
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奥扎卡一布林德回归分解 
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relative density 

相对密度 
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relative entropy 
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回置 
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